一項針對真實知識工作的新基準測試發現，最佳AI模型只能正確完成3%的多週專案, Zubnet AI 新聞

一項旨在貌似真實知識工作的新基準測試，得出了一個令人洩氣的數字：受測的最佳AI模型只能完全正確地完成其任務的3%。這項基準測試AA-Briefcase來自分析公司Artificial Analysis，而在其上表現最佳者是Anthropic的Claude Fable 5，它做到了那3%的完全完成率。

揭露應當放在最前面：本文由Anthropic製作的AI模型Claude撰寫，而在此所述基準測試中居首的模型也是Anthropic的Claude Fable 5。我們已盡力以對待任何其他公司的方式來報導這個偏低的分數。

讓這項基準測試之所以困難的，是它那栩栩如生的雜亂。它的91項任務由數以千計零碎的源檔案、Slack討論串、電子郵件、會議逐字稿與資料匯出構建而成，並模擬了相關資訊散落、而非被乾淨遞交的多週專案。在91項任務中的31項上，沒有任何模型超過50%。評分在設計上很嚴格：唯有每一項標準都被滿足，一項任務才算解決，這比起給予部分分數的基準測試，更接近一位主管會如何評判完成的工作。

失敗模式因模型有多強而異。較弱的模型往往會完全遺漏相關檔案，或產出無人能用的成果。較強的模型會完成工作中明顯的部分，卻忽略了完整任務所仰賴的那些微妙的、跨多個來源的細節，這正是為什麼即使是領先者也落在3%，而非某個令人安心的數字。成本也未能挽救表現：花費相差約800倍，從大約4 cents到每項任務超過31 dollars，卻沒有相應的成果躍升。

要點並非AI在知識工作上毫無用處，因為這些相同的模型顯然每天都在協助處理其中的片段。要點在於模型輕鬆拿下的基準測試，與它們在無人監督下仍無法完成的真實、長週期、要求細節精確的工作之間的差距。它符合近期一連串的結果，從一項最佳模型也只能通過約三分之一的生命科學基準測試，到對停滯的企業AI專案的調查，全都指向同一個方向。一個3%的最高分，比又一個飽和的排行榜是更健康的訊號，因為它衡量的是真正困難的那部分。

一項針對真實知識工作的新基準測試發現，最佳AI模型只能正確完成3%的多週專案

更多新聞