当前这一批 agentic reasoning 基准测试有意思的地方在于,它们对模型实际有多好这件事分歧有多大。SWE-bench Verified 上前沿系统超过 80%,听起来像解决了。OSWorld 测的是跨应用电脑使用,让它们停在 12.24%,对比人类 72.36% 的 baseline——基本是另一个星球。ARC-AGI-1 饱和在 90%+,ARC-AGI-3 截至 2026 年 3 月让前沿模型不到 1%。τ-bench 显示单次成功率低于 50%,pass^k 一致性低于 25%。这些分数不是噪声;它们在测不同的东西,而最讨好的基准和最诚实的基准之间的差距,现在才是真正的故事。

发布分数的人都应该被要求重复的方法论警告:agent 结果依赖 scaffold。模型是一个变量。prompt 设计、工具访问、重试预算、执行环境和评估器版本是所有其他变量。Anthropic 自己跑自己 scaffold 的 SWE-bench Verified 分数,和第三方评估器在同一模型上的 SWE-bench Verified 分数,可以差出两位数。当 vendor 报 80%,正确的下一个问题是"用什么 scaffold、什么工具栈、什么重试策略"——不是"棒,发吧"。Sierra τ-bench 团队把这点做到了最强版本:他们引入 pass^k,测 agent 在同一任务上连续 k 次成功。pass@1 到 pass^8 的下降在每个模型上都很残酷,这就是生产部署真正会撞上的可靠性差距。

OSWorld 是最干净地暴露 demo 和部署之间差距的基准。人类在跨应用 GUI 任务上拿 72%。最好的前沿模型拿 12%。这不是需要更难问题的基准;这是一类还不知道怎么像人那样操作电脑的模型。大多数其他 agentic 基准在纯文本或纯 API 环境里跑,agent 可以调干净的工具——OSWorld 让它点按钮、切窗口、处理 OS 抛回来的任何东西。60 分的差距,是当有人给你看一个"用你电脑的 AI 助手"的精美 demo 时,应该钉在墙上的正确数字。Demo 是写好脚本的。OSWorld 不是。

对开发者来说,实用的阅读清单长这样:SWE-bench Verified 看代码修复特化,τ-bench 看重复试验下的可靠性,OSWorld 看电脑使用的接地,GAIA 看多步 web 推理,ARC-AGI-2 看新颖视觉推理,WebArena 看导航,AgentBench 看跨环境广度。没有一个单独够用。没有一个测每任务成本、对抗性输入下的安全性,或者超越视觉的多模态推理——这些是这个领域还没解决的缺口。挑选两三个对应你实际产品的,用你自己的 scaffold 跑公开评估,然后把 vendor 的头条数字当作 marketing,直到你能复现它们。这个榜单作为"还没人解决什么"的地图,比作为"已经声称什么"的胜利圈更有用。