ARC-AGI-3讓前沿模型分數跌破1%，為AGI宣言潑冷水

François Chollet的ARC Prize基金會剛發布了ARC-AGI-3，真的很殘酷。這個人類100%能解決的互動式推理基準測試新版本，讓所有前沿AI模型的成績都跌破了1%。Google的Gemini Pro在這個屈辱排行榜上以0.37%領先，接著是GPT 5.4 High的0.26%、Claude Opus的0.25%，而Grok直接拿了零分。這些都是遊戲式情境，零指令，模型必須完全從零開始發現規則、形成目標並執行策略。

這次重置很重要，因為它在關鍵時刻戳破了AGI炒作泡沫。各實驗室燒了數百萬專門針對ARC-AGI-2進行訓練，在不到一年時間裡將分數從3%推到了大約50% —— 結果被V3打回幾乎零分。Chollet有意這樣設計，就是要把真正的推理能力與昂貴的模式匹配和暴力優化區分開來。支持這項挑戰的100萬美元獎金讓前沿實驗室比對早期版本更加關注。

最能說明問題的是這個模式。每次ARC發布都觸發相同的循環：模型被打臉，實驗室投入資源解決問題，分數快速攀升，然後新版本把一切重置。V3的最終分數改善是否代表真正的推理突破，還是只是更複雜的記憶，這正是Chollet建構這個測試要揭露的。對於押注模型推理能力的開發者來說，ARC-AGI-3是你產品路線圖需要的現實檢驗。

ARC-AGI-3讓前沿模型分數跌破1%，為AGI宣言潑冷水

更多新聞