2026 年 agent 基準測試榜單：SWE-bench 80%，OSWorld 12%，藏在裡面的可靠性危機

當前這一批 agentic reasoning 基準測試有意思的地方在於，它們對模型實際有多好這件事分歧有多大。SWE-bench Verified 上前沿系統超過 80%，聽起來像解決了。OSWorld 測的是跨應用電腦使用，讓它們停在 12.24%，對比人類 72.36% 的 baseline——基本是另一個星球。ARC-AGI-1 飽和在 90%+，ARC-AGI-3 截至 2026 年 3 月讓前沿模型不到 1%。τ-bench 顯示單次成功率低於 50%，pass^k 一致性低於 25%。這些分數不是雜訊；它們在測不同的東西，而最討好的基準和最誠實的基準之間的差距，現在才是真正的故事。

發布分數的人都應該被要求重複的方法論警告：agent 結果依賴 scaffold。模型是一個變數。prompt 設計、工具存取、重試預算、執行環境和評估器版本是所有其他變數。Anthropic 自己跑自己 scaffold 的 SWE-bench Verified 分數，和第三方評估器在同一模型上的 SWE-bench Verified 分數，可以差出兩位數。當 vendor 報 80%，正確的下一個問題是「用什麼 scaffold、什麼工具堆疊、什麼重試策略」——不是「棒，發吧」。Sierra τ-bench 團隊把這點做到了最強版本：他們引入 pass^k，測 agent 在同一任務上連續 k 次成功。pass@1 到 pass^8 的下降在每個模型上都很殘酷，這就是生產部署真正會撞上的可靠性差距。

OSWorld 是最乾淨地暴露 demo 和部署之間差距的基準。人類在跨應用 GUI 任務上拿 72%。最好的前沿模型拿 12%。這不是需要更難問題的基準；這是一類還不知道怎麼像人那樣操作電腦的模型。大多數其他 agentic 基準在純文字或純 API 環境裡跑，agent 可以調乾淨的工具——OSWorld 讓它點按鈕、切視窗、處理 OS 拋回來的任何東西。60 分的差距，是當有人給你看一個「用你電腦的 AI 助理」的精美 demo 時，應該釘在牆上的正確數字。Demo 是寫好腳本的。OSWorld 不是。

對開發者來說，實用的閱讀清單長這樣：SWE-bench Verified 看程式碼修復特化，τ-bench 看重複試驗下的可靠性，OSWorld 看電腦使用的接地，GAIA 看多步 web 推理，ARC-AGI-2 看新穎視覺推理，WebArena 看導航，AgentBench 看跨環境廣度。沒有一個單獨夠用。沒有一個測每任務成本、對抗性輸入下的安全性，或者超越視覺的多模態推理——這些是這個領域還沒解決的缺口。挑選兩三個對應你實際產品的，用你自己的 scaffold 跑公開評估，然後把 vendor 的頭條數字當作 marketing，直到你能重現它們。這個榜單作為「還沒人解決什麼」的地圖，比作為「已經聲稱什麼」的勝利圈更有用。

2026 年 agent 基準測試榜單：SWE-bench 80%，OSWorld 12%，藏在裡面的可靠性危機

更多新聞