Startseite Leben KI wurde gerade von Super Mario vernichtet – Claude gewinnt, GPT-4o versagt sofort!

KI wurde gerade von Super Mario vernichtet – Claude gewinnt, GPT-4o versagt sofort!

Leben

2025-03-04

Sind Videospiele der ultimative KI-Benchmark?

Jahrelang stützte sich die Bewertung von KI-Modellen auf Benchmarks wie MMLU, Chatbot Arena und SWE-Bench Verified. Doch mit der Entwicklung der KI stellen selbst Experten wie Andrej Karpathy diese Methoden infrage.

Seine neueste Sorge? KI-Benchmarks verlieren an Zuverlässigkeit – und die Lösung für bessere Evaluierungen könnte in Videospielen liegen.

Schließlich hat KI eine lange Geschichte in Games. DeepMinds AlphaGo veränderte die Welt durch den Sieg gegen Go-Champions. OpenAI dominierte Dota 2 und bewies, dass KI menschliche Spieler in Strategiespielen übertrumpfen kann.

Jetzt gehen Forscher des Hao KI-Labors der UC San Diego noch weiter. Sie entwickelten einen Open-Source-“Gaming Agent”, der große Sprachmodelle (LLMs) in Echtzeit-Puzzlespielen testet – beginnend mit Super Mario Bros..

Die Ergebnisse? Claude 3.7 spielte volle 90 Sekunden – und zerstörte dabei OpenAIs GPT-4o, das fast sofort scheiterte.

Claude 3.7 übertrifft OpenAI und Google in Super Mario

Das Open-Source-Projekt GamingAgent ermöglicht KI-Modellen, Spielfiguren via natürlicher Sprache zu steuern.

🔹 Claude 3.7 Sonnet überlebte beeindruckende 90 Sekunden.
🔹 GPT-4o scheiterte nach 20 Sekunden – besiegt vom ersten Gegner!
🔹 Googles Gemini 1.5 Pro und Gemini 2.0 versagten kläglich, selbst bei Basics.

GPT-4o: Die KI, die nicht springen kann

Stellt euch einen Spieler vor, der innerhalb von Sekunden stirbt. Das ist GPT-4o in Super Mario.

💀 Erster Versuch: Vom ersten Gegner eliminiert wie ein Anfänger.

💀 Zweiter Versuch: Kaum Fortschritt, blieb alle zwei Schritte stehen.

💀 Dritter Versuch: Bleibt 10 Sekunden in einem Rohr stecken bevor es stirbt.

Für ein KI-Modell mit fortgeschrittener Logik war GPT-4os Leistung erschreckend schlecht.

Googles Gemini: Die “Zwei-Schritte-Sprung”-Strategie

Gemini 1.5 Pro scheiterte ebenfalls am ersten Gegner. Beim zweiten Versuch verbesserte es sich leicht – traf einen ?-Block und sammelte einen Super-Pilz.

Doch es entwickelte eine seltsame Angewohnheit: Sprang alle zwei Schritte – egal ob nötig oder nicht.

🚀 9 Sprünge auf kurzer Distanz

🚀 Hüpfte über Rohre, Boden und leere Flächen

🚀 Kam weiter als GPT-4o, stürzte aber in eine Grube

Gemini 2.0 Flash war etwas besser, sprang flüssiger und erreichte ein höheres Plateau. Scheiterte aber an einer Grube beim vierten Rohr.

Claude 3.7: Das Super Mario-Wunderkind?

Anders als OpenAI und Google spielte Claude 3.7 wie ein echter Gamer.

✔ Sprang nur bei Bedarf (für Hindernisse/Lücken)

✔ Wich Gegnern durch präzise Sprünge aus

✔ Entdeckte einen versteckten Stern-Power-up!

✔ Erreichte den weitesten Punkt aller getesteten KIs

Claude 3.7 übertraf sogar Gemini 2.0 Flash. Während Gemini an einer Grube scheiterte, meisterte Claude diese, sammelte Extra-Münzen und bekämpfte neue Gegner wie Koopa-Troopas.

Kann KI komplexere Spiele meistern?

Mario ist nicht der einzige Test. Die Forscher evaluierten KIs auch in Tetris und 2048 – zwei Strategiespielen.

GPT-4o scheitert bei 2048 – Claude 3.7 glänzt

Im Zahlenpuzzle 2048 musste die KI Kacheln verschieben und strategisch mergen.

🔹 GPT-4o scheiterte früh durch Überanalysieren.
🔹 Claude 3.7 überlebte länger mit cleveren Merges.
🔹 Kein Modell gewann – aber Claude war besser.

Claude 3.7s Tetris-Skills beeindrucken Experten

In Tetris zeigte Claude 3.7:

✔ Gute Stacking-Strategien
✔ Effektives Lösen von Reihen
✔ Längeres Überleben als andere KIs

Anthropics Alex Albert lobte:

“Jedes Videospiel sollte ein KI-Benchmark werden!”

Sind Spiele die Zukunft der KI-Evaluierung?

Die Ergebnisse legen nahe: Videospiele könnten der nächste große KI-Benchmark werden. Anders als statische Tests erfordern Games Echtzeit-Entscheidungen, Anpassungsfähigkeit und Motorik.

Da KI-Modelle rasant fortschreiten, reichen traditionelle Benchmarks vielleicht nicht mehr aus. Falls sich Gaming als besserer Maßstab erweist, könnten KIs zukünftig mit Reinforcement Learning an tausenden Spielen trainiert werden.

Fazit: Claude gewinnt diese Runde – doch was kommt?

Claude 3.7s überlegene Spielskills deuten auf stärkere Logik und Anpassungsfähigkeit hin. Doch welche KI wird als erste ein komplettes Spiel wie ein Mensch meistern?

Mit Open-Source-Gaming-Agents erwarten uns bald mehr KI-vs-Game-Schlachten. Wer weiß? Vielleicht schafft eine KI bald Super Mario fehlerfrei – oder besiegt sogar eSport-Profis.

Bis dahin bleibt Claude der ungekrönte KI-Gaming-König – während GPT-4o dringend Trainingsstunden braucht!

Leben

2025-03-04

Favorite

Zauberhaftes Bulgarien: Ein verborgenes europäisches Juwel umgeben von Rosen

Reise

2025-03-04

Dieser hyperrealistische Roboter ist so lebensecht, dass er Ihre Identität stehlen könnte!

Leben

2025-03-04

Recommended for You

Dieser hyperrealistische Roboter ist so lebensecht, dass er Ihre Identität stehlen könnte!

Leben

Mehr Kohlenhydrate essen, Alterung umkehren? Die verblüffende Wissenschaft, die Sie umhauen wird!

Leben

Leiden Sie unter Rückenschmerzen? Diese 5-minütige Routine wird Sie verblüffen!

Leben

Treffen oder Schlacht? Trump und Selenskyj stehen sich gegenüber, während sich das Weiße Haus in einen Kriegsschauplatz verwandelt!

Leben

Musks schockierende Vorhersage: KI wird menschliche Intelligenz bis 2029 übertreffen

Leben

iPhone 17 Air: Das dünnste iPhone aller Zeiten mit einer Akkulaufzeit, die Sie umhauen wird!

Leben

Vom Parkour-Wunderkind zum Fabrik-Superstar: Die atemberaubende neue Mission des Atlas-Roboters!

Leben

Bereiten Sie sich auf Samsungs epischen dreifach klappbaren Galaxy Z Fold vor – mit einem 6,49-Zoll-Display!

Leben

Hören Sie auf, diese 10 Dinge zu tun, bevor Ihr Hund Sie für immer hasst!

Das afrikanische Dorf, in dem Menschen und Krokodile seit 600 Jahren in Frieden leben

Bleiben Sie mit den interessantesten Neuigkeiten auf dem Laufenden

Bleiben Sie mit den interessantesten Neuigkeiten auf dem Laufenden

KI wurde gerade von Super Mario vernichtet – Claude gewinnt, GPT-4o versagt sofort!

Sind Videospiele der ultimative KI-Benchmark?

Claude 3.7 übertrifft OpenAI und Google in Super Mario

GPT-4o: Die KI, die nicht springen kann

Googles Gemini: Die “Zwei-Schritte-Sprung”-Strategie

Claude 3.7: Das Super Mario-Wunderkind?

Kann KI komplexere Spiele meistern?

GPT-4o scheitert bei 2048 – Claude 3.7 glänzt

Claude 3.7s Tetris-Skills beeindrucken Experten

Sind Spiele die Zukunft der KI-Evaluierung?

Fazit: Claude gewinnt diese Runde – doch was kommt?

Bleiben Sie mit den interessantesten Neuigkeiten auf dem Laufenden

Zauberhaftes Bulgarien: Ein verborgenes europäisches Juwel umgeben von Rosen

Dieser hyperrealistische Roboter ist so lebensecht, dass er Ihre Identität stehlen könnte!

Dieser hyperrealistische Roboter ist so lebensecht, dass er Ihre Identität stehlen könnte!

Mehr Kohlenhydrate essen, Alterung umkehren? Die verblüffende Wissenschaft, die Sie umhauen wird!

Leiden Sie unter Rückenschmerzen? Diese 5-minütige Routine wird Sie verblüffen!

Treffen oder Schlacht? Trump und Selenskyj stehen sich gegenüber, während sich das Weiße Haus in einen Kriegsschauplatz verwandelt!

Musks schockierende Vorhersage: KI wird menschliche Intelligenz bis 2029 übertreffen

iPhone 17 Air: Das dünnste iPhone aller Zeiten mit einer Akkulaufzeit, die Sie umhauen wird!

Vom Parkour-Wunderkind zum Fabrik-Superstar: Die atemberaubende neue Mission des Atlas-Roboters!

Bereiten Sie sich auf Samsungs epischen dreifach klappbaren Galaxy Z Fold vor – mit einem 6,49-Zoll-Display!