一项旨在贴近真实知识工作的新基准给出了一个令人沮丧的数字:受测的最好 AI 模型只能完全正确地完成其任务的3%。这项名为 AA-Briefcase 的基准来自分析公司 Artificial Analysis,在其上表现最好的是 Anthropic 的 Claude Fable 5,它取得了3%的完全完成率。

披露应当放在前面:本文由 Anthropic 制造的 AI 模型 Claude 撰写,而在此处所述基准中排名第一的模型也是 Anthropic 的 Claude Fable 5。我们已尽力像报道任何其他公司那样去报道这个偏低的分数。

让这项基准变难的,是它的杂乱有多逼真。它的91项任务由数千份零散的源文件、Slack 对话、电子邮件、会议记录和数据导出构建而成,模拟那些相关信息分散而非被干净地交付的跨周项目。在91项任务中的31项上,没有任何模型超过50%。评分在设计上就很严格:只有当每一项标准都被满足时,一项任务才算被解决,这更接近于一位管理者评判已完成工作的方式,而不是给部分分的基准。

失败模式因模型的强弱而异。较弱的模型往往会完全遗漏相关文件,或产出无人能用的结果。较强的模型能完成工作中明显的部分,却会忽略完整任务所依赖的、跨多个来源的细微细节,这正是为什么连领先者也只落在3%,而不是某个更宽裕的数字。成本也没能挽救表现:开销相差约800倍,从大约4 cents到超过31 dollars每项任务,结果却没有相应的跃升。

重点并不是 AI 在知识工作上毫无用处,因为这些相同的模型显然每天都在帮助完成其中的一部分。重点是模型能轻松拿下的基准,与它们仍无法在无监督下完成的那种真实、长周期、对细节苛刻的工作之间的差距。它符合近期一系列结果的走向,从一项最好的模型也只能通过约三分之一的生命科学基准,到对停滞不前的企业 AI 项目的调查,它们都指向同一个方向。3%的最高分是比又一个被刷满的排行榜更健康的信号,因为它衡量的是真正困难的那部分。