2月18日,馬斯克再次上演了經典的「遲到戲碼」。遲到20分鐘後,他帶著xAI的旗艦AI模型Grok-3閃亮登場。這場名為「Our Mission is to Understand the Universe」的直播,直接放出了號稱「地球最強」的Grok-3。
馬斯克表示,Grok-3在推理、數學編碼、多語言理解等領域都實現了飛躍式突破。性能直接碾壓Claude 3、GPT-4、Gemini等所有競品。
Grok-3強在哪?
Grok-3是在孟菲斯超算中心訓練的,總共用了20萬塊H100,耗時122天完成訓練。工程團隊還透露,Grok-3是一個模型家族,包含Grok-3 Mini等輕量級版本,在速度與精度之間做了平衡。

在測試中,Grok-3直接刷新了多項紀錄:
- 數學(AIME 24):Grok-3以96分碾壓DeepSeek-R1(87分)和GPT-4
- 科學(GPQA):在研究生水平問題上表現最佳
- 編程(LCB):生成複雜代碼的速度比Claude 3.5和Gemini 2.0268更快
- 在Chatbot Arena排行榜上,Grok-3以1402分登頂,成為首個突破1400分的模型,直接碾壓OpenAI、Google和Anthropic

AI史上的里程碑
在AIME 2025測試中,Grok-3 Reasoning Beta和Grok-3 Mini Reasoning均獲得90 的成績,在推理能力上碾壓所有競品。
Grok-3甚至能生成完整的《俄羅斯方塊×寶石迷陣》遊戲代碼,並實現了3D效果。它甚至嘗試解決了數學界「聖杯」黎曼猜想,展現了處理複雜思維鏈的能力。

DeepSearch模式上線
Grok-3新增DeepSearch模式,將研究、頭腦風暴和代碼調試融為一體。其「思維鏈」機制支持Test-Time Compute,在Big Brain模式下,AI的思考深度提升了263%。
如何體驗Grok-3?
目前,只有X Premium 訂閱用戶可以解鎖全部功能。SuperGrok訂閱用戶可享受無限次數的圖像生成和深度搜索。訂閱費為$30/月。

馬斯克承諾,Grok-3穩定後將開源Grok-2。他放話:「xAI的創新速度,將徹底改寫AI競賽的遊戲規則!」
AI界地震
DeepSeek已經開源,ChatGPT正在進軍搜索領域。Grok-3能否殺出重圍?這場AI大戰,才剛剛開始。