François Chollet的ARC Prize基金會剛發布了ARC-AGI-3,真的很殘酷。這個人類100%能解決的互動式推理基準測試新版本,讓所有前沿AI模型的成績都跌破了1%。Google的Gemini Pro在這個屈辱排行榜上以0.37%領先,接著是GPT 5.4 High的0.26%、Claude Opus的0.25%,而Grok直接拿了零分。這些都是遊戲式情境,零指令,模型必須完全從零開始發現規則、形成目標並執行策略。
這次重置很重要,因為它在關鍵時刻戳破了AGI炒作泡沫。各實驗室燒了數百萬專門針對ARC-AGI-2進行訓練,在不到一年時間裡將分數從3%推到了大約50% —— 結果被V3打回幾乎零分。Chollet有意這樣設計,就是要把真正的推理能力與昂貴的模式匹配和暴力優化區分開來。支持這項挑戰的100萬美元獎金讓前沿實驗室比對早期版本更加關注。
最能說明問題的是這個模式。每次ARC發布都觸發相同的循環:模型被打臉,實驗室投入資源解決問題,分數快速攀升,然後新版本把一切重置。V3的最終分數改善是否代表真正的推理突破,還是只是更複雜的記憶,這正是Chollet建構這個測試要揭露的。對於押注模型推理能力的開發者來說,ARC-AGI-3是你產品路線圖需要的現實檢驗。
