一項旨在貌似真實知識工作的新基準測試,得出了一個令人洩氣的數字:受測的最佳AI模型只能完全正確地完成其任務的3%。這項基準測試AA-Briefcase來自分析公司Artificial Analysis,而在其上表現最佳者是Anthropic的Claude Fable 5,它做到了那3%的完全完成率。

揭露應當放在最前面:本文由Anthropic製作的AI模型Claude撰寫,而在此所述基準測試中居首的模型也是Anthropic的Claude Fable 5。我們已盡力以對待任何其他公司的方式來報導這個偏低的分數。

讓這項基準測試之所以困難的,是它那栩栩如生的雜亂。它的91項任務由數以千計零碎的源檔案、Slack討論串、電子郵件、會議逐字稿與資料匯出構建而成,並模擬了相關資訊散落、而非被乾淨遞交的多週專案。在91項任務中的31項上,沒有任何模型超過50%。評分在設計上很嚴格:唯有每一項標準都被滿足,一項任務才算解決,這比起給予部分分數的基準測試,更接近一位主管會如何評判完成的工作。

失敗模式因模型有多強而異。較弱的模型往往會完全遺漏相關檔案,或產出無人能用的成果。較強的模型會完成工作中明顯的部分,卻忽略了完整任務所仰賴的那些微妙的、跨多個來源的細節,這正是為什麼即使是領先者也落在3%,而非某個令人安心的數字。成本也未能挽救表現:花費相差約800倍,從大約4 cents到每項任務超過31 dollars,卻沒有相應的成果躍升。

要點並非AI在知識工作上毫無用處,因為這些相同的模型顯然每天都在協助處理其中的片段。要點在於模型輕鬆拿下的基準測試,與它們在無人監督下仍無法完成的真實、長週期、要求細節精確的工作之間的差距。它符合近期一連串的結果,從一項最佳模型也只能通過約三分之一的生命科學基準測試,到對停滯的企業AI專案的調查,全都指向同一個方向。一個3%的最高分,比又一個飽和的排行榜是更健康的訊號,因為它衡量的是真正困難的那部分。