表紙人生を愛する AIがスーパーマリオに完全敗北―Claudeが勝利、GPT-4oは即座に敗退！

AIがスーパーマリオに完全敗北―Claudeが勝利、GPT-4oは即座に敗退！

人生を愛する

2025-03-04

ビデオゲームは究極のAIベンチマークか？

長年、AIモデルの評価はMMLUやChatbot Arena、SWE-Bench Verifiedなどのベンチマークに依存してきました。しかしAIが進化するにつれ、Andrej Karpathyのような専門家でさえ、これらの手法がまだ有効か疑問を投げかけています。

彼が最新で懸念しているのは？AIベンチマークの信頼性低下──そしてより優れた評価方法の答えはビデオゲームにあるかもしれないということです。

結局のところ、AIとゲームの歴史は長いのです。DeepMindのAlphaGoは囲碁チャンピオンを破って世界を変えました。OpenAIはDota 2で優位に立ち、戦略ゲームにおいてAIが人間プレイヤーを凌駕できることを証明しました。

現在、カリフォルニア大学サンディエゴ校Hao AI Labの研究者たちがさらに進化させています。彼らはオープンソースの「ゲーミングエージェント」AIを構築し、大規模言語モデル（LLM）をリアルタイムパズルゲームでテスト──まずはスーパーマリオブラザーズから始めました。

結果は？Claude 3.7が90秒間プレイ──OpenAIのGPT-4oがほぼ即死したのを圧倒しました。

スーパーマリオでClaude 3.7がOpenAIとGoogleを圧倒

オープンソースで公開されているGamingAgentプロジェクトでは、AIモデルが自然言語を使ってゲームキャラクターを操作できます。

🔹 Claude 3.7 Sonnetは驚異の90秒間生存
🔹 GPT-4oは20秒で最初の敵に敗北！
🔹 GoogleのGemini 1.5 ProとGemini 2.0は基本動作すら苦戦

GPT-4o：ジャンプできないAI

ゲームが下手すぎて数秒で死ぬプレイヤーを想像してください。それがスーパーマリオにおけるGPT-4oです。

💀 初挑戦：完全な初心者のように最初の敵に即死

💀 2回目：2歩進むごとに停止し、ほとんど進めず

💀 3回目：パイプの下で10秒間詰まった後、死亡

高度な推論能力を誇るAIモデルにとって、GPT-4oのパフォーマンスは衝撃的に低いものでした。

GoogleのGemini：「2歩ジャンプ」戦略

Gemini 1.5 Proも最初の敵で即敗北。しかし2回目の挑戦では改善が見られ、?ブロックを叩いてスーパーキノコを取得しました。

ただし奇妙な癖が発現：必要のない場面でも2歩ごとにジャンプするようになりました。

🚀 短距離で9回ジャンプ

🚀 パイプ、地面、空白地帯までジャンプ

🚀 GPT-4oより進んだが穴に落下

Gemini 2.0 Flashはやや改善し、スムーズにジャンプして高いプラットフォームに到達。しかし4本目のパイプ近くの穴から脱出できず、ゲームオーバーとなりました。

Claude 3.7：スーパーマリオの神童？

OpenAIやGoogleのモデルとは異なり、Claude 3.7は実際のゲーマーのようにプレイしました。

✔ 必要な時だけジャンプ（障害物や穴回避時）

✔ 精密なジャンプで敵を回避

✔ 隠しスターパワーアップを発見！

✔ 全AI中最も遠くまで到達

Claude 3.7は従来の最高記録保持者Gemini 2.0 Flashをも上回りました。Geminiが穴で失敗する中、Claudeは穴をクリアしただけでなく、追加コインを獲得しノコノコなどの新たな敵とも対戦しました。

AIはより複雑なゲームをマスターできるか？

マリオだけがテストではありません。研究者たちは戦略的意思決定を必要とする古典パズルゲームテトリスと2048でもAIモデルを評価しました。

GPT-4oが2048で敗北──Claude 3.7が優位

数字結合パズル2048では、AIがタイルをスライドさせ戦略的な動きをする必要がありました。

🔹 GPT-4oは早々に敗北、過剰思考
🔹 Claude 3.7は長く生存し賢いタイル結合
🔹 どちらも勝利せず──だがClaudeが優位

Claude 3.7のテトリス性能が専門家を驚嘆

テトリスでのテストではClaude 3.7が以下を披露：

✔ ピース積み上げの適切な戦略
✔ ライン消去の正確性
✔ 他モデルより長い生存時間

AnthropicのAlex Albertはこの実験を称賛：

「すべてのビデオゲームをAIベンチマークにすべきだ！」

ゲームはAI評価の未来か？

この結果は、ビデオゲームが次世代AIベンチマークとなる可能性を示唆しています。従来のテストと異なり、ゲームはリアルタイム意思決定、適応能力、運動技能を要求します。

AIモデルが急速に進化する中、静的ベンチマークだけでは真の知能を判断できなくなっています。ゲームが優れた測定手段と証明されれば、AIモデルはデプロイ前に強化学習で数千のゲームを訓練するようになるかもしれません。

最終考察：Claudeが今回優位だが次は？

Claude 3.7の優れたゲームプレイは、GPT-4oやGeminiより強力な推論力と適応力を暗示しています。しかしAIが進化する中、人間のようにゲームを完全クリアする最初のモデルはどれか？

オープンソースのゲーミングエージェントが利用可能な今、近い将来さらに多くのAI対ゲームバトルが予想されます。ひょっとすると、AIがミスゼロでスーパーマリオをクリア──あるいは人間のeスポーツプレイヤーを打ち負かす日が来るかもしれません。

それまでは、ClaudeがAIゲーミングの王者──GPT-4oは猛練習が必要です！

人生を愛する

2025-03-04

Favorite

インド料理：カレーの大胆な味を超えて

食べ物

2025-03-04

魅惑のブルガリア: ヨーロッパの隠れた宝石、バラに囲まれた地

旅行

2025-03-04

Recommended for You

この超リアルなロボットは本物そっくりであなたのアイデンティティを盗む可能性も！

人生を愛する

マスクの衝撃的な予測：AIは2029年までに人間の知能を超越する

人生を愛する

会談か、戦いか？ホワイトハウスが戦場に！トランプとゼレンスキーが対決

人生を愛する

超秘情報公開：生後1年で赤ちゃんの知能を爆発的に伸ばす究極メソッド！

人生を愛する

折りたたみiPhoneついに実現⁉︎ AppleのiPhone 18の秘密が暴露！

人生を愛する

「疑問符のような姿勢を卒業——ヨガで即効改善！左右不均等な肩」

人生を愛する

赤ちゃんがDroolで遊んでいるだけだと思いますか？これがあなたが欠けているものです！

人生を愛する

これらの15羽の鳥にそのような非常識なくちばしがあるとは信じられません。＃4はあなたの心を吹き飛ばすでしょう！

人生を愛する

最新の投稿

驚くほど長生きできる犬 20 頭 ― あなたの犬もリストに入っていますか?

アンチエイジングクリームのことは忘れてください。これらの 6 つの方法で若返ります

手遅れになるまでモルモットについて誰も教えてくれない

Most Discussed

間違った食品は認知症リスクを 88% 増加させる可能性があります!一口食べるごとに脳の健康に影響します!

ハイキングの後遺症？筋肉痛を一瞬で解消する5つの驚くべきコツ！

これらの6つの魔法のヨガポーズで肩と首の痛みにさよならを言いましょう！

最新の投稿

ヘンリー・リー: 不可能を可能にした法医学界の伝説

脳のない人間？シリコンバレーで最も物議を醸した医療アイデア

220ドルのアリ: 野生動物の密輸がどのようにして小さな種に静かに移行したか

プレイスペースで銃が紛失: バージニア州で起きた衝撃的な事件

Most Discussed

牛泥棒か、それともエイリアンとの遭遇か？イギリスの奇妙な1978年の謎。

北朝鮮よりも秘密主義：時間（そしてインターネット）が忘れた国の内部。

ヘンリー・リー: 不可能を可能にした法医学界の伝説

ヨルダン料理: マンサフ、ムータベル、中東の味

AIがスーパーマリオに完全敗北―Claudeが勝利、GPT-4oは即座に敗退！

ビデオゲームは究極のAIベンチマークか？

スーパーマリオでClaude 3.7がOpenAIとGoogleを圧倒

GPT-4o：ジャンプできないAI

GoogleのGemini：「2歩ジャンプ」戦略

Claude 3.7：スーパーマリオの神童？

AIはより複雑なゲームをマスターできるか？

GPT-4oが2048で敗北──Claude 3.7が優位

Claude 3.7のテトリス性能が専門家を驚嘆

ゲームはAI評価の未来か？

最終考察：Claudeが今回優位だが次は？

インド料理：カレーの大胆な味を超えて

魅惑のブルガリア: ヨーロッパの隠れた宝石、バラに囲まれた地

Recommended for You

この超リアルなロボットは本物そっくりであなたのアイデンティティを盗む可能性も！

マスクの衝撃的な予測：AIは2029年までに人間の知能を超越する

会談か、戦いか？ホワイトハウスが戦場に！トランプとゼレンスキーが対決

超秘情報公開：生後1年で赤ちゃんの知能を爆発的に伸ばす究極メソッド！

折りたたみiPhoneついに実現⁉︎ AppleのiPhone 18の秘密が暴露！

「疑問符のような姿勢を卒業——ヨガで即効改善！左右不均等な肩」

赤ちゃんがDroolで遊んでいるだけだと思いますか？これがあなたが欠けているものです！

これらの15羽の鳥にそのような非常識なくちばしがあるとは信じられません。＃4はあなたの心を吹き飛ばすでしょう！

驚くほど長生きできる犬 20 頭 ― あなたの犬もリストに入っていますか?

ヘンリー・リー: 不可能を可能にした法医学界の伝説

最も興味深いニュースをチェックしましょう

最も興味深いニュースをチェックしましょう

AIがスーパーマリオに完全敗北―Claudeが勝利、GPT-4oは即座に敗退！

ビデオゲームは究極のAIベンチマークか？

スーパーマリオでClaude 3.7がOpenAIとGoogleを圧倒

GPT-4o：ジャンプできないAI

GoogleのGemini：「2歩ジャンプ」戦略

Claude 3.7：スーパーマリオの神童？

AIはより複雑なゲームをマスターできるか？

GPT-4oが2048で敗北──Claude 3.7が優位

Claude 3.7のテトリス性能が専門家を驚嘆

ゲームはAI評価の未来か？

最終考察：Claudeが今回優位だが次は？

最も興味深いニュースをチェックしましょう

インド料理：カレーの大胆な味を超えて

魅惑のブルガリア: ヨーロッパの隠れた宝石、バラに囲まれた地

この超リアルなロボットは本物そっくりであなたのアイデンティティを盗む可能性も！

マスクの衝撃的な予測：AIは2029年までに人間の知能を超越する

会談か、戦いか？ ホワイトハウスが戦場に！ トランプとゼレンスキーが対決

超秘情報公開：生後1年で赤ちゃんの知能を爆発的に伸ばす究極メソッド！

折りたたみiPhoneついに実現⁉︎ AppleのiPhone 18の秘密が暴露！

「疑問符のような姿勢を卒業——ヨガで即効改善！左右不均等な肩」

赤ちゃんがDroolで遊んでいるだけだと思いますか？これがあなたが欠けているものです！

これらの15羽の鳥にそのような非常識なくちばしがあるとは信じられません。＃4はあなたの心を吹き飛ばすでしょう！

会談か、戦いか？ホワイトハウスが戦場に！トランプとゼレンスキーが対決