2026 年 agent 基准测试榜单：SWE-bench 80%，OSWorld 12%，藏在里面的可靠性危机

当前这一批 agentic reasoning 基准测试有意思的地方在于，它们对模型实际有多好这件事分歧有多大。SWE-bench Verified 上前沿系统超过 80%，听起来像解决了。OSWorld 测的是跨应用电脑使用，让它们停在 12.24%，对比人类 72.36% 的 baseline——基本是另一个星球。ARC-AGI-1 饱和在 90%+，ARC-AGI-3 截至 2026 年 3 月让前沿模型不到 1%。τ-bench 显示单次成功率低于 50%，pass^k 一致性低于 25%。这些分数不是噪声；它们在测不同的东西，而最讨好的基准和最诚实的基准之间的差距，现在才是真正的故事。

发布分数的人都应该被要求重复的方法论警告：agent 结果依赖 scaffold。模型是一个变量。prompt 设计、工具访问、重试预算、执行环境和评估器版本是所有其他变量。Anthropic 自己跑自己 scaffold 的 SWE-bench Verified 分数，和第三方评估器在同一模型上的 SWE-bench Verified 分数，可以差出两位数。当 vendor 报 80%，正确的下一个问题是"用什么 scaffold、什么工具栈、什么重试策略"——不是"棒，发吧"。Sierra τ-bench 团队把这点做到了最强版本：他们引入 pass^k，测 agent 在同一任务上连续 k 次成功。pass@1 到 pass^8 的下降在每个模型上都很残酷，这就是生产部署真正会撞上的可靠性差距。

OSWorld 是最干净地暴露 demo 和部署之间差距的基准。人类在跨应用 GUI 任务上拿 72%。最好的前沿模型拿 12%。这不是需要更难问题的基准；这是一类还不知道怎么像人那样操作电脑的模型。大多数其他 agentic 基准在纯文本或纯 API 环境里跑，agent 可以调干净的工具——OSWorld 让它点按钮、切窗口、处理 OS 抛回来的任何东西。60 分的差距，是当有人给你看一个"用你电脑的 AI 助手"的精美 demo 时，应该钉在墙上的正确数字。Demo 是写好脚本的。OSWorld 不是。

对开发者来说，实用的阅读清单长这样：SWE-bench Verified 看代码修复特化，τ-bench 看重复试验下的可靠性，OSWorld 看电脑使用的接地，GAIA 看多步 web 推理，ARC-AGI-2 看新颖视觉推理，WebArena 看导航，AgentBench 看跨环境广度。没有一个单独够用。没有一个测每任务成本、对抗性输入下的安全性，或者超越视觉的多模态推理——这些是这个领域还没解决的缺口。挑选两三个对应你实际产品的，用你自己的 scaffold 跑公开评估，然后把 vendor 的头条数字当作 marketing，直到你能复现它们。这个榜单作为"还没人解决什么"的地图，比作为"已经声称什么"的胜利圈更有用。

2026 年 agent 基准测试榜单：SWE-bench 80%，OSWorld 12%，藏在里面的可靠性危机

更多新闻