Mode sombre Mode lumière

Restez au courant des nouvelles les plus intéressantes

En appuyant sur le bouton S'abonner, vous confirmez avoir lu et accepté notre Politique de confidentialité et nos Conditions d'utilisation
Follow Us

Restez au courant des nouvelles les plus intéressantes

En appuyant sur le bouton S'abonner, vous confirmez avoir lu et accepté notre Politique de confidentialité et nos Conditions d'utilisation
Cuisine indienne : Au-delà des saveurs audacieuses du curry
L’IA vient d’être détruite par Super Mario—Claude l’emporte, GPT-4o échoue instantanément !
La Bulgarie Envoûtante : Un Joyau Européen Caché Entouré de Roses

L’IA vient d’être détruite par Super Mario—Claude l’emporte, GPT-4o échoue instantanément !

Les jeux vidéo sont-ils le meilleur benchmark pour l’IA ?

Pendant des années, l’évaluation des modèles d’IA s’est appuyée sur des benchmarks comme MMLU, Chatbot Arena et SWE-Bench Verified. Mais alors que l’IA évolue, même des experts comme Andrej Karpathy remettent en question la pertinence de ces méthodes.

Son dernier sujet d’inquiétude ? Les benchmarks d’IA perdent en fiabilité – et la solution pour une meilleure évaluation pourrait se trouver dans les jeux vidéo.

Après tout, l’IA a une longue histoire dans le gaming. Le DeepMind d’AlphaGo a changé le monde en battant des champions de Go. OpenAI a dominé Dota 2, prouvant que l’IA pouvait surpasser les joueurs humains dans les jeux stratégiques.

Advertisement

Des chercheurs du Hao AI Lab de l’UC San Diego ont poussé le concept plus loin. Ils ont créé une IA “agent de jeu” open-source pour tester les grands modèles de langage (LLM) dans des jeux de réflexion en temps réel – en commençant par Super Mario Bros..

Le résultat ? Claude 3.7 a joué pendant 90 secondes complètes – écrasant le GPT-4o d’OpenAI, mort presque instantanément.

Claude 3.7 surclasse OpenAI et Google dans Super Mario

Le projet GamingAgent, disponible en téléchargement open-source, permet aux modèles d’IA de contrôler un personnage de jeu en langage naturel.

🔹 Claude 3.7 Sonnet a tenu 90 secondes impressionnantes.
🔹 GPT-4o est mort en 20 secondes – vaincu par le premier ennemi !
🔹 Les performances de Gemini 1.5 Pro et Gemini 2.0 de Google étaient médiocres, avec des difficultés dans les déplacements de base.

GPT-4o : L’IA qui ne sait pas sauter

Imaginez un joueur si mauvais qu’il meurt en quelques secondes. C’est GPT-4o dans Super Mario.

  • 💀 Première tentative : Tué par le premier ennemi, comme un parfait débutant.
  • 💀 Deuxième tentative : Progrès minimes, s’arrêtant tous les deux pas.
  • 💀 Troisième tentative : Bloqué sous un tuyau pendant 10 secondes avant de mourir.

Pour un modèle d’IA vantant un raisonnement avancé, les performances de GPT-4o étaient consternantes.

Gemini de Google : la stratégie du “saut tous les deux pas”

Gemini 1.5 Pro a aussi échoué dès le premier ennemi. Mais lors de sa deuxième tentative, il s’est légèrement amélioré – frappant un bloc « ? » et attrapant un Super Champignon.

Cependant, il a développé une étrange habitude : sauter tous les deux pas – que ce soit nécessaire ou non.

  • 🚀 A sauté 9 fois sur une courte distance
  • 🚀 A survolé tuyaux, sols et espaces vides
  • 🚀 A progressé plus loin que GPT-4o mais est tombé dans un précipice

Gemini 2.0 Flash a fait légèrement mieux, sautant plus fluidement et atteignant une plateforme plus haute. Mais il a échoué à sortir d’un précipice près du quatrième tuyau – mettant fin à sa partie.

Claude 3.7 : Le prodige de Super Mario ?

Contrairement aux modèles d’OpenAI et Google, Claude 3.7 a joué comme un vrai gamer.

  • Ne sautait que lorsque nécessaire (pour éviter obstacles ou trous)
  • Évitait les ennemis par des sauts précis
  • A découvert une étoile secrète !
  • A atteint le point le plus éloigné comparé aux autres IA

Claude 3.7 a même surpassé Gemini 2.0 Flash, précédent détenteur du record. Alors que Gemini échouait à un précipice, Claude l’a non seulement franchi mais a aussi collecté des pièces supplémentaires et affronté de nouveaux ennemis comme les Koopa Troopas.

L’IA peut-elle maîtriser des jeux plus complexes ?

Mario n’est pas le seul test. Les chercheurs ont aussi évalué les modèles d’IA sur Tetris et 2048, deux jeux de réflexion classiques nécessitant une prise de décision stratégique.

GPT-4o échoue à 2048 – Claude 3.7 fait mieux

Dans le puzzle numérique 2048, l’IA devait fusionner des tuiles et faire des choix stratégiques.

🔹 GPT-4o a échoué rapidement, sur-analysant ses mouvements.
🔹 Claude 3.7 a tenu plus longtemps, fusionnant les tuiles plus intelligemment.
🔹 Aucun modèle n’a gagné – mais Claude a surpassé GPT-4o.

Les performances de Claude 3.7 à Tetris impressionnent les experts

Testé sur Tetris, Claude 3.7 a montré :

Une stratégie décente pour empiler les pièces
Un nettoyage correct des lignes
Une survie plus longue que les autres modèles

Alex Albert d’Anthropic a salué l’expérience :

« Nous devrions transformer chaque jeu vidéo en benchmark d’IA ! »

Les jeux sont-ils l’avenir de l’évaluation de l’IA ?

Ces résultats suggèrent que les jeux vidéo pourraient devenir le prochain grand benchmark pour l’IA. Contrairement aux tests traditionnels, les jeux exigent prise de décision en temps réel, adaptabilité et coordination motrice.

Avec l’évolution rapide des modèles d’IA, les benchmarks statiques ne suffisent plus à juger l’intelligence réelle. Si le gaming s’avère un meilleur indicateur, nous pourrions voir des IA s’entraîner via l’apprentissage par renforcement sur des milliers de jeux avant déploiement.

Dernières réflexions : Claude gagne ce round, mais la suite ?

La supériorité de Claude 3.7 suggère un raisonnement et une adaptabilité supérieurs à GPT-4o et Gemini. Mais avec l’évolution de l’IA, quel modèle sera le premier à terminer un jeu comme un humain ?

Avec des agents de jeu open-source disponibles, attendez-vous à plus de batailles IA vs jeux vidéo. Qui sait ? Peut-être qu’un jour, l’IA finira Super Mario sans erreur – ou battra des joueurs eSports.

En attendant, Claude reste le roi du gaming IA – tandis que GPT-4o a besoin de s’entraîner sérieusement !

Restez au courant des nouvelles les plus intéressantes

En appuyant sur le bouton S'abonner, vous confirmez avoir lu et accepté notre Politique de confidentialité et nos Conditions d'utilisation
Previous Post

Cuisine indienne : Au-delà des saveurs audacieuses du curry

Next Post

La Bulgarie Envoûtante : Un Joyau Européen Caché Entouré de Roses

Advertisement