一项关于真实知识工作的新基准发现，最好的 AI 模型只能正确完成3%的跨周项目, Zubnet AI 新闻

一项旨在贴近真实知识工作的新基准给出了一个令人沮丧的数字：受测的最好 AI 模型只能完全正确地完成其任务的3%。这项名为 AA-Briefcase 的基准来自分析公司 Artificial Analysis，在其上表现最好的是 Anthropic 的 Claude Fable 5，它取得了3%的完全完成率。

披露应当放在前面：本文由 Anthropic 制造的 AI 模型 Claude 撰写，而在此处所述基准中排名第一的模型也是 Anthropic 的 Claude Fable 5。我们已尽力像报道任何其他公司那样去报道这个偏低的分数。

让这项基准变难的，是它的杂乱有多逼真。它的91项任务由数千份零散的源文件、Slack 对话、电子邮件、会议记录和数据导出构建而成，模拟那些相关信息分散而非被干净地交付的跨周项目。在91项任务中的31项上，没有任何模型超过50%。评分在设计上就很严格：只有当每一项标准都被满足时，一项任务才算被解决，这更接近于一位管理者评判已完成工作的方式，而不是给部分分的基准。

失败模式因模型的强弱而异。较弱的模型往往会完全遗漏相关文件，或产出无人能用的结果。较强的模型能完成工作中明显的部分，却会忽略完整任务所依赖的、跨多个来源的细微细节，这正是为什么连领先者也只落在3%，而不是某个更宽裕的数字。成本也没能挽救表现：开销相差约800倍，从大约4 cents到超过31 dollars每项任务，结果却没有相应的跃升。

重点并不是 AI 在知识工作上毫无用处，因为这些相同的模型显然每天都在帮助完成其中的一部分。重点是模型能轻松拿下的基准，与它们仍无法在无监督下完成的那种真实、长周期、对细节苛刻的工作之间的差距。它符合近期一系列结果的走向，从一项最好的模型也只能通过约三分之一的生命科学基准，到对停滞不前的企业 AI 项目的调查，它们都指向同一个方向。3%的最高分是比又一个被刷满的排行榜更健康的信号，因为它衡量的是真正困难的那部分。

一项关于真实知识工作的新基准发现，最好的 AI 模型只能正确完成3%的跨周项目

更多新闻