Page d'accueil Vie L’IA vient d’être détruite par Super Mario—Claude l’emporte, GPT-4o échoue instantanément !

L’IA vient d’être détruite par Super Mario—Claude l’emporte, GPT-4o échoue instantanément !

2025-03-04

Les jeux vidéo sont-ils le meilleur benchmark pour l’IA ?

Pendant des années, l’évaluation des modèles d’IA s’est appuyée sur des benchmarks comme MMLU, Chatbot Arena et SWE-Bench Verified. Mais alors que l’IA évolue, même des experts comme Andrej Karpathy remettent en question la pertinence de ces méthodes.

Son dernier sujet d’inquiétude ? Les benchmarks d’IA perdent en fiabilité – et la solution pour une meilleure évaluation pourrait se trouver dans les jeux vidéo.

Après tout, l’IA a une longue histoire dans le gaming. Le DeepMind d’AlphaGo a changé le monde en battant des champions de Go. OpenAI a dominé Dota 2, prouvant que l’IA pouvait surpasser les joueurs humains dans les jeux stratégiques.

Des chercheurs du Hao AI Lab de l’UC San Diego ont poussé le concept plus loin. Ils ont créé une IA “agent de jeu” open-source pour tester les grands modèles de langage (LLM) dans des jeux de réflexion en temps réel – en commençant par Super Mario Bros..

Le résultat ? Claude 3.7 a joué pendant 90 secondes complètes – écrasant le GPT-4o d’OpenAI, mort presque instantanément.

Claude 3.7 surclasse OpenAI et Google dans Super Mario

Le projet GamingAgent, disponible en téléchargement open-source, permet aux modèles d’IA de contrôler un personnage de jeu en langage naturel.

🔹 Claude 3.7 Sonnet a tenu 90 secondes impressionnantes.
🔹 GPT-4o est mort en 20 secondes – vaincu par le premier ennemi !
🔹 Les performances de Gemini 1.5 Pro et Gemini 2.0 de Google étaient médiocres, avec des difficultés dans les déplacements de base.

GPT-4o : L’IA qui ne sait pas sauter

Imaginez un joueur si mauvais qu’il meurt en quelques secondes. C’est GPT-4o dans Super Mario.

💀 Première tentative : Tué par le premier ennemi, comme un parfait débutant.

💀 Deuxième tentative : Progrès minimes, s’arrêtant tous les deux pas.

💀 Troisième tentative : Bloqué sous un tuyau pendant 10 secondes avant de mourir.

Pour un modèle d’IA vantant un raisonnement avancé, les performances de GPT-4o étaient consternantes.

Gemini de Google : la stratégie du “saut tous les deux pas”

Gemini 1.5 Pro a aussi échoué dès le premier ennemi. Mais lors de sa deuxième tentative, il s’est légèrement amélioré – frappant un bloc « ? » et attrapant un Super Champignon.

Cependant, il a développé une étrange habitude : sauter tous les deux pas – que ce soit nécessaire ou non.

🚀 A sauté 9 fois sur une courte distance

🚀 A survolé tuyaux, sols et espaces vides

🚀 A progressé plus loin que GPT-4o mais est tombé dans un précipice

Gemini 2.0 Flash a fait légèrement mieux, sautant plus fluidement et atteignant une plateforme plus haute. Mais il a échoué à sortir d’un précipice près du quatrième tuyau – mettant fin à sa partie.

Claude 3.7 : Le prodige de Super Mario ?

Contrairement aux modèles d’OpenAI et Google, Claude 3.7 a joué comme un vrai gamer.

✔ Ne sautait que lorsque nécessaire (pour éviter obstacles ou trous)

✔ Évitait les ennemis par des sauts précis

✔ A découvert une étoile secrète !

✔ A atteint le point le plus éloigné comparé aux autres IA

Claude 3.7 a même surpassé Gemini 2.0 Flash, précédent détenteur du record. Alors que Gemini échouait à un précipice, Claude l’a non seulement franchi mais a aussi collecté des pièces supplémentaires et affronté de nouveaux ennemis comme les Koopa Troopas.

L’IA peut-elle maîtriser des jeux plus complexes ?

Mario n’est pas le seul test. Les chercheurs ont aussi évalué les modèles d’IA sur Tetris et 2048, deux jeux de réflexion classiques nécessitant une prise de décision stratégique.

GPT-4o échoue à 2048 – Claude 3.7 fait mieux

Dans le puzzle numérique 2048, l’IA devait fusionner des tuiles et faire des choix stratégiques.

🔹 GPT-4o a échoué rapidement, sur-analysant ses mouvements.
🔹 Claude 3.7 a tenu plus longtemps, fusionnant les tuiles plus intelligemment.
🔹 Aucun modèle n’a gagné – mais Claude a surpassé GPT-4o.

Les performances de Claude 3.7 à Tetris impressionnent les experts

Testé sur Tetris, Claude 3.7 a montré :

✔ Une stratégie décente pour empiler les pièces
✔ Un nettoyage correct des lignes
✔ Une survie plus longue que les autres modèles

Alex Albert d’Anthropic a salué l’expérience :

« Nous devrions transformer chaque jeu vidéo en benchmark d’IA ! »

Les jeux sont-ils l’avenir de l’évaluation de l’IA ?

Ces résultats suggèrent que les jeux vidéo pourraient devenir le prochain grand benchmark pour l’IA. Contrairement aux tests traditionnels, les jeux exigent prise de décision en temps réel, adaptabilité et coordination motrice.

Avec l’évolution rapide des modèles d’IA, les benchmarks statiques ne suffisent plus à juger l’intelligence réelle. Si le gaming s’avère un meilleur indicateur, nous pourrions voir des IA s’entraîner via l’apprentissage par renforcement sur des milliers de jeux avant déploiement.

Dernières réflexions : Claude gagne ce round, mais la suite ?

La supériorité de Claude 3.7 suggère un raisonnement et une adaptabilité supérieurs à GPT-4o et Gemini. Mais avec l’évolution de l’IA, quel modèle sera le premier à terminer un jeu comme un humain ?

Avec des agents de jeu open-source disponibles, attendez-vous à plus de batailles IA vs jeux vidéo. Qui sait ? Peut-être qu’un jour, l’IA finira Super Mario sans erreur – ou battra des joueurs eSports.

En attendant, Claude reste le roi du gaming IA – tandis que GPT-4o a besoin de s’entraîner sérieusement !

2025-03-04

Favorite

Cuisine indienne : Au-delà des saveurs audacieuses du curry

Nourriture

2025-03-04

La Bulgarie Envoûtante : Un Joyau Européen Caché Entouré de Roses

Voyage

2025-03-04

Pas de salle de sport, pas de régime : seulement 7 poses de yoga qui changent tout

Poussée choquante sur le quai du train : une évasion d’une fraction de seconde de la mort

Restez au courant des nouvelles les plus intéressantes

Restez au courant des nouvelles les plus intéressantes

L’IA vient d’être détruite par Super Mario—Claude l’emporte, GPT-4o échoue instantanément !

Les jeux vidéo sont-ils le meilleur benchmark pour l’IA ?

Claude 3.7 surclasse OpenAI et Google dans Super Mario

GPT-4o : L’IA qui ne sait pas sauter

Gemini de Google : la stratégie du “saut tous les deux pas”

Claude 3.7 : Le prodige de Super Mario ?

L’IA peut-elle maîtriser des jeux plus complexes ?

GPT-4o échoue à 2048 – Claude 3.7 fait mieux

Les performances de Claude 3.7 à Tetris impressionnent les experts

Les jeux sont-ils l’avenir de l’évaluation de l’IA ?

Dernières réflexions : Claude gagne ce round, mais la suite ?

Restez au courant des nouvelles les plus intéressantes

Cuisine indienne : Au-delà des saveurs audacieuses du curry

La Bulgarie Envoûtante : Un Joyau Européen Caché Entouré de Roses

Ce robot hyperréaliste est si réaliste qu’il pourrait voler votre identité !

Grok-3 de Musk dévoilé ! Une amélioration 10 fois supérieure surpasse DeepSeek, la bataille mondiale de l’IA commence

Votre chat est-il secrètement malade ? 7 signes cachés que vous ne pouvez pas ignorer !

iPhone 17 Fuité : Designs à Couper le Souffle, Révolution 5G & Les Puces Maison d’Apple !

Prédiction choquante de Musk : L’IA surpassera l’intelligence humaine d’ici 2029

Réunion ou Bataille ? Trump et Zelensky s’affrontent alors que la Maison Blanche se transforme en champ de bataille !

Secret Ultime Révélé : Astuces pour Booster l’Intelligence de Votre Bébé Durant la Première Année !

iPhone pliable enfin RÉEL ?! Les secrets de l’iPhone 18 d’Apple dévoilés !