ビデオゲームは究極のAIベンチマークか?
長年、AIモデルの評価はMMLUやChatbot Arena、SWE-Bench Verifiedなどのベンチマークに依存してきました。しかしAIが進化するにつれ、Andrej Karpathyのような専門家でさえ、これらの手法がまだ有効か疑問を投げかけています。
彼が最新で懸念しているのは?AIベンチマークの信頼性低下──そしてより優れた評価方法の答えはビデオゲームにあるかもしれないということです。
結局のところ、AIとゲームの歴史は長いのです。DeepMindのAlphaGoは囲碁チャンピオンを破って世界を変えました。OpenAIはDota 2で優位に立ち、戦略ゲームにおいてAIが人間プレイヤーを凌駕できることを証明しました。
現在、カリフォルニア大学サンディエゴ校Hao AI Labの研究者たちがさらに進化させています。彼らはオープンソースの「ゲーミングエージェント」AIを構築し、大規模言語モデル(LLM)をリアルタイムパズルゲームでテスト──まずはスーパーマリオブラザーズから始めました。
結果は?Claude 3.7が90秒間プレイ──OpenAIのGPT-4oがほぼ即死したのを圧倒しました。
スーパーマリオでClaude 3.7がOpenAIとGoogleを圧倒
オープンソースで公開されているGamingAgentプロジェクトでは、AIモデルが自然言語を使ってゲームキャラクターを操作できます。
🔹 Claude 3.7 Sonnetは驚異の90秒間生存
🔹 GPT-4oは20秒で最初の敵に敗北!
🔹 GoogleのGemini 1.5 ProとGemini 2.0は基本動作すら苦戦
GPT-4o:ジャンプできないAI
ゲームが下手すぎて数秒で死ぬプレイヤーを想像してください。それがスーパーマリオにおけるGPT-4oです。
- 💀 初挑戦:完全な初心者のように最初の敵に即死

- 💀 2回目:2歩進むごとに停止し、ほとんど進めず

- 💀 3回目:パイプの下で10秒間詰まった後、死亡

高度な推論能力を誇るAIモデルにとって、GPT-4oのパフォーマンスは衝撃的に低いものでした。
GoogleのGemini:「2歩ジャンプ」戦略
Gemini 1.5 Proも最初の敵で即敗北。しかし2回目の挑戦では改善が見られ、?ブロックを叩いてスーパーキノコを取得しました。
ただし奇妙な癖が発現:必要のない場面でも2歩ごとにジャンプするようになりました。
- 🚀 短距離で9回ジャンプ

- 🚀 パイプ、地面、空白地帯までジャンプ

- 🚀 GPT-4oより進んだが穴に落下

Gemini 2.0 Flashはやや改善し、スムーズにジャンプして高いプラットフォームに到達。しかし4本目のパイプ近くの穴から脱出できず、ゲームオーバーとなりました。
Claude 3.7:スーパーマリオの神童?
OpenAIやGoogleのモデルとは異なり、Claude 3.7は実際のゲーマーのようにプレイしました。
- ✔ 必要な時だけジャンプ(障害物や穴回避時)

- ✔ 精密なジャンプで敵を回避

- ✔ 隠しスターパワーアップを発見!

- ✔ 全AI中最も遠くまで到達

Claude 3.7は従来の最高記録保持者Gemini 2.0 Flashをも上回りました。Geminiが穴で失敗する中、Claudeは穴をクリアしただけでなく、追加コインを獲得しノコノコなどの新たな敵とも対戦しました。
AIはより複雑なゲームをマスターできるか?
マリオだけがテストではありません。研究者たちは戦略的意思決定を必要とする古典パズルゲームテトリスと2048でもAIモデルを評価しました。
GPT-4oが2048で敗北──Claude 3.7が優位
数字結合パズル2048では、AIがタイルをスライドさせ戦略的な動きをする必要がありました。
🔹 GPT-4oは早々に敗北、過剰思考
🔹 Claude 3.7は長く生存し賢いタイル結合
🔹 どちらも勝利せず──だがClaudeが優位

Claude 3.7のテトリス性能が専門家を驚嘆
テトリスでのテストではClaude 3.7が以下を披露:
✔ ピース積み上げの適切な戦略
✔ ライン消去の正確性
✔ 他モデルより長い生存時間
AnthropicのAlex Albertはこの実験を称賛:
「すべてのビデオゲームをAIベンチマークにすべきだ!」

ゲームはAI評価の未来か?
この結果は、ビデオゲームが次世代AIベンチマークとなる可能性を示唆しています。従来のテストと異なり、ゲームはリアルタイム意思決定、適応能力、運動技能を要求します。
AIモデルが急速に進化する中、静的ベンチマークだけでは真の知能を判断できなくなっています。ゲームが優れた測定手段と証明されれば、AIモデルはデプロイ前に強化学習で数千のゲームを訓練するようになるかもしれません。
最終考察:Claudeが今回優位だが次は?
Claude 3.7の優れたゲームプレイは、GPT-4oやGeminiより強力な推論力と適応力を暗示しています。しかしAIが進化する中、人間のようにゲームを完全クリアする最初のモデルはどれか?
オープンソースのゲーミングエージェントが利用可能な今、近い将来さらに多くのAI対ゲームバトルが予想されます。ひょっとすると、AIがミスゼロでスーパーマリオをクリア──あるいは人間のeスポーツプレイヤーを打ち負かす日が来るかもしれません。
それまでは、ClaudeがAIゲーミングの王者──GPT-4oは猛練習が必要です!