深色模式 明亮模式

隨時了解最有趣的新聞

按下「訂閱」按鈕,即表示您確認已閱讀並同意我們的隱私權政策使用條款
Follow Us

隨時了解最有趣的新聞

按下「訂閱」按鈕,即表示您確認已閱讀並同意我們的隱私權政策使用條款

AI慘遭超級瑪利歐擊潰——Claude大獲全勝,GPT-4o瞬間慘敗!

電玩遊戲是人工智慧的終極考場嗎?

多年來,評估AI模型始終依賴MMLU、Chatbot Arena和SWE-Bench Verified等基準測試。但隨著AI進化,就連Andrej Karpathy等專家都開始質疑這些方法是否依然有效。

他最新的擔憂?AI基準測試正逐漸失去可靠性——而更好的評估方式可能藏在電玩遊戲中。

畢竟,AI在遊戲領域早有輝煌戰績。DeepMindAlphaGo通過擊敗圍棋冠軍改變世界。OpenAIDota 2的統治性表現,證明AI能在策略遊戲中超越人類玩家。

Advertisement

如今,加州大學聖地牙哥分校Hao AI實驗室的研究人員更進一步。他們打造開源「遊戲代理」AI,用即時解謎遊戲測試大型語言模型(LLMs)——首個考驗是超級瑪利歐兄弟

結果如何?Claude 3.7持續遊玩90秒——完勝OpenAI的GPT-4o,後者幾乎瞬間死亡

Claude 3.7在超級瑪利歐完勝OpenAI與Google

已開放開源下載的GamingAgent項目,讓AI模型能用自然語言操控遊戲角色。

🔹 Claude 3.7 Sonnet堅持驚人的90秒。
🔹 GPT-4o僅20秒就死亡——被首個敵人擊敗!
🔹 Google的Gemini 1.5 Pro與Gemini 2.0表現糟糕,連基本移動都成問題。

GPT-4o:不會跳躍的AI

想像有個玩家爛到幾秒內就死亡,那就是超級瑪利歐裡的GPT-4o。

  • 💀 首次嘗試:被首個敵人擊殺,完全像個新手。
  • 💀 二次嘗試:幾乎沒進展,每兩步就停頓。
  • 💀 三次嘗試:卡在水管下10秒後死亡。

對於自詡具備先進推理能力的AI模型,GPT-4o的表現令人震驚地糟糕

Google的Gemini:「兩步一跳」策略

Gemini 1.5 Pro同樣在首個敵人處失敗。但二次嘗試時有所進步——撞擊?方塊並取得超級蘑菇

不過它養成怪癖:每兩步就跳躍——無論必要與否。

  • 🚀 短距離內跳躍9次
  • 🚀 躍過水管、地面甚至空地
  • 🚀 比GPT-4o走更遠,但仍墜入深坑

Gemini 2.0 Flash稍好些,跳躍更流暢並抵達更高平台。但仍未能逃脫第四根水管附近的深坑——終結遊戲。

Claude 3.7:超級瑪利歐神童?

與OpenAI和Google模型不同,Claude 3.7玩得像真人玩家

  • 只在必要時跳躍(避開障礙或缺口)
  • 透過精準跳躍避開敵人
  • 發現隱藏星星強化道具!
  • 抵達所有AI中最遠進度

Claude 3.7甚至擊敗先前保持最佳紀錄的Gemini 2.0 Flash。當Gemini在深坑失敗時,Claude不僅通過,還獲取額外金幣並迎戰慢慢龜等新敵人。

AI能駕馭更複雜遊戲嗎?

瑪利歐不是唯一測試。研究人員還用需要策略決策的經典解謎遊戲俄羅斯方塊2048評估AI模型。

GPT-4o在2048落敗——Claude 3.7表現更佳

在數字合併遊戲2048中,AI需滑動方塊並做出策略移動。

🔹 GPT-4o過度思考導致早期失敗。
🔹 Claude 3.7堅持更久,做出更聰明方塊合併。
🔹 兩模型皆未取勝——但Claude表現優於GPT-4o。

Claude 3.7俄羅斯方塊表現驚艷專家

在俄羅斯方塊測試中,Claude 3.7展現:

合理的方塊堆疊策略
正確消除行列
存活時間長於其他AI模型

Anthropic的Alex Albert稱讚實驗時表示:

「我們應該把每款電玩都變成AI基準測試!」

遊戲是AI評估的未來嗎?

結果顯示電玩可能成為AI的下個重要基準。與傳統測試不同,遊戲需要即時決策、適應能力和操作技巧。

隨著AI模型快速進化,靜態基準可能不足以判斷真正智能。若遊戲被證實是更好指標,我們或將看到AI模型在部署前透過強化學習訓練數千款遊戲。

最終思考:Claude贏得此輪,但下一步?

Claude 3.7的優異遊戲表現暗示其推理與適應能力強於GPT-4o和Gemini。但隨著AI進化,哪個模型將率先像人類般完整通關遊戲?

隨著開源遊戲代理問世,預計將有更多AI對決電玩的戰役。誰知道呢?或許有天AI能零失誤通關超級瑪利歐——甚至擊敗人類電競選手。

在那之前,Claude仍是AI遊戲之王——而GPT-4o需要好好練習!

隨時了解最有趣的新聞

按下「訂閱」按鈕,即表示您確認已閱讀並同意我們的隱私權政策使用條款
Previous Post

迷人的保加利亞:隱藏的歐洲瑰寶,被玫瑰環繞的

Next Post

這個超現實機器人如此逼真,它可能會偷走你的身份!

Advertisement