當前這一批 agentic reasoning 基準測試有意思的地方在於,它們對模型實際有多好這件事分歧有多大。SWE-bench Verified 上前沿系統超過 80%,聽起來像解決了。OSWorld 測的是跨應用電腦使用,讓它們停在 12.24%,對比人類 72.36% 的 baseline——基本是另一個星球。ARC-AGI-1 飽和在 90%+,ARC-AGI-3 截至 2026 年 3 月讓前沿模型不到 1%。τ-bench 顯示單次成功率低於 50%,pass^k 一致性低於 25%。這些分數不是雜訊;它們在測不同的東西,而最討好的基準和最誠實的基準之間的差距,現在才是真正的故事。

發布分數的人都應該被要求重複的方法論警告:agent 結果依賴 scaffold。模型是一個變數。prompt 設計、工具存取、重試預算、執行環境和評估器版本是所有其他變數。Anthropic 自己跑自己 scaffold 的 SWE-bench Verified 分數,和第三方評估器在同一模型上的 SWE-bench Verified 分數,可以差出兩位數。當 vendor 報 80%,正確的下一個問題是「用什麼 scaffold、什麼工具堆疊、什麼重試策略」——不是「棒,發吧」。Sierra τ-bench 團隊把這點做到了最強版本:他們引入 pass^k,測 agent 在同一任務上連續 k 次成功。pass@1 到 pass^8 的下降在每個模型上都很殘酷,這就是生產部署真正會撞上的可靠性差距。

OSWorld 是最乾淨地暴露 demo 和部署之間差距的基準。人類在跨應用 GUI 任務上拿 72%。最好的前沿模型拿 12%。這不是需要更難問題的基準;這是一類還不知道怎麼像人那樣操作電腦的模型。大多數其他 agentic 基準在純文字或純 API 環境裡跑,agent 可以調乾淨的工具——OSWorld 讓它點按鈕、切視窗、處理 OS 拋回來的任何東西。60 分的差距,是當有人給你看一個「用你電腦的 AI 助理」的精美 demo 時,應該釘在牆上的正確數字。Demo 是寫好腳本的。OSWorld 不是。

對開發者來說,實用的閱讀清單長這樣:SWE-bench Verified 看程式碼修復特化,τ-bench 看重複試驗下的可靠性,OSWorld 看電腦使用的接地,GAIA 看多步 web 推理,ARC-AGI-2 看新穎視覺推理,WebArena 看導航,AgentBench 看跨環境廣度。沒有一個單獨夠用。沒有一個測每任務成本、對抗性輸入下的安全性,或者超越視覺的多模態推理——這些是這個領域還沒解決的缺口。挑選兩三個對應你實際產品的,用你自己的 scaffold 跑公開評估,然後把 vendor 的頭條數字當作 marketing,直到你能重現它們。這個榜單作為「還沒人解決什麼」的地圖,比作為「已經聲稱什麼」的勝利圈更有用。