ダークモード ライトモード

最も興味深いニュースをチェックしましょう

「購読」ボタンをクリックすることで、あなたは当社のプライバシーポリシーおよび利用規約に同意したことを確認したものとします。
Follow Us

最も興味深いニュースをチェックしましょう

「購読」ボタンをクリックすることで、あなたは当社のプライバシーポリシーおよび利用規約に同意したことを確認したものとします。

AIがスーパーマリオに完全敗北―Claudeが勝利、GPT-4oは即座に敗退!

ビデオゲームは究極のAIベンチマークか?

長年、AIモデルの評価はMMLUやChatbot Arena、SWE-Bench Verifiedなどのベンチマークに依存してきました。しかしAIが進化するにつれ、Andrej Karpathyのような専門家でさえ、これらの手法がまだ有効か疑問を投げかけています。

彼が最新で懸念しているのは?AIベンチマークの信頼性低下──そしてより優れた評価方法の答えはビデオゲームにあるかもしれないということです。

結局のところ、AIとゲームの歴史は長いのです。DeepMindAlphaGoは囲碁チャンピオンを破って世界を変えました。OpenAIDota 2で優位に立ち、戦略ゲームにおいてAIが人間プレイヤーを凌駕できることを証明しました。

Advertisement

現在、カリフォルニア大学サンディエゴ校Hao AI Labの研究者たちがさらに進化させています。彼らはオープンソースの「ゲーミングエージェント」AIを構築し、大規模言語モデル(LLM)をリアルタイムパズルゲームでテスト──まずはスーパーマリオブラザーズから始めました。

結果は?Claude 3.7が90秒間プレイ──OpenAIのGPT-4oがほぼ即死したのを圧倒しました。

スーパーマリオでClaude 3.7がOpenAIとGoogleを圧倒

オープンソースで公開されているGamingAgentプロジェクトでは、AIモデルが自然言語を使ってゲームキャラクターを操作できます。

🔹 Claude 3.7 Sonnetは驚異の90秒間生存
🔹 GPT-4oは20秒で最初の敵に敗北!
🔹 GoogleのGemini 1.5 ProとGemini 2.0は基本動作すら苦戦

GPT-4o:ジャンプできないAI

ゲームが下手すぎて数秒で死ぬプレイヤーを想像してください。それがスーパーマリオにおけるGPT-4oです。

  • 💀 初挑戦:完全な初心者のように最初の敵に即死
  • 💀 2回目:2歩進むごとに停止し、ほとんど進めず
  • 💀 3回目:パイプの下で10秒間詰まった後、死亡

高度な推論能力を誇るAIモデルにとって、GPT-4oのパフォーマンスは衝撃的に低いものでした。

GoogleのGemini:「2歩ジャンプ」戦略

Gemini 1.5 Proも最初の敵で即敗北。しかし2回目の挑戦では改善が見られ、?ブロックを叩いてスーパーキノコを取得しました。

ただし奇妙な癖が発現:必要のない場面でも2歩ごとにジャンプするようになりました。

  • 🚀 短距離で9回ジャンプ
  • 🚀 パイプ、地面、空白地帯までジャンプ
  • 🚀 GPT-4oより進んだが穴に落下

Gemini 2.0 Flashはやや改善し、スムーズにジャンプして高いプラットフォームに到達。しかし4本目のパイプ近くの穴から脱出できず、ゲームオーバーとなりました。

Claude 3.7:スーパーマリオの神童?

OpenAIやGoogleのモデルとは異なり、Claude 3.7は実際のゲーマーのようにプレイしました。

  • 必要な時だけジャンプ(障害物や穴回避時)
  • 精密なジャンプで敵を回避
  • 隠しスターパワーアップを発見!
  • 全AI中最も遠くまで到達

Claude 3.7は従来の最高記録保持者Gemini 2.0 Flashをも上回りました。Geminiが穴で失敗する中、Claudeは穴をクリアしただけでなく、追加コインを獲得しノコノコなどの新たな敵とも対戦しました。

AIはより複雑なゲームをマスターできるか?

マリオだけがテストではありません。研究者たちは戦略的意思決定を必要とする古典パズルゲームテトリス2048でもAIモデルを評価しました。

GPT-4oが2048で敗北──Claude 3.7が優位

数字結合パズル2048では、AIがタイルをスライドさせ戦略的な動きをする必要がありました。

🔹 GPT-4oは早々に敗北、過剰思考
🔹 Claude 3.7は長く生存し賢いタイル結合
🔹 どちらも勝利せず──だがClaudeが優位

Claude 3.7のテトリス性能が専門家を驚嘆

テトリスでのテストではClaude 3.7が以下を披露:

ピース積み上げの適切な戦略
ライン消去の正確性
他モデルより長い生存時間

AnthropicのAlex Albertはこの実験を称賛:

「すべてのビデオゲームをAIベンチマークにすべきだ!」

ゲームはAI評価の未来か?

この結果は、ビデオゲームが次世代AIベンチマークとなる可能性を示唆しています。従来のテストと異なり、ゲームはリアルタイム意思決定、適応能力、運動技能を要求します。

AIモデルが急速に進化する中、静的ベンチマークだけでは真の知能を判断できなくなっています。ゲームが優れた測定手段と証明されれば、AIモデルはデプロイ前に強化学習で数千のゲームを訓練するようになるかもしれません。

最終考察:Claudeが今回優位だが次は?

Claude 3.7の優れたゲームプレイは、GPT-4oやGeminiより強力な推論力と適応力を暗示しています。しかしAIが進化する中、人間のようにゲームを完全クリアする最初のモデルはどれか?

オープンソースのゲーミングエージェントが利用可能な今、近い将来さらに多くのAI対ゲームバトルが予想されます。ひょっとすると、AIがミスゼロでスーパーマリオをクリア──あるいは人間のeスポーツプレイヤーを打ち負かす日が来るかもしれません。

それまでは、ClaudeがAIゲーミングの王者──GPT-4oは猛練習が必要です!

最も興味深いニュースをチェックしましょう

「購読」ボタンをクリックすることで、あなたは当社のプライバシーポリシーおよび利用規約に同意したことを確認したものとします。
Previous Post

インド料理:カレーの大胆な味を超えて

Next Post

魅惑のブルガリア: ヨーロッパの隠れた宝石、バラに囲まれた地

Advertisement