MIT 科技評論端出 APEX-Agents 基準：前沿模型在真實工作任務上只過 33%

MIT 科技評論的 AI 簡報今天用一個所謂"內褲地精"問題來組織文章：第一步是造模型，第三步是企業轉型，第二步基本上是揮揮手糊弄過去。框架背後的具體證據是 Mercor 的 APEX-Agents 基準，Will Douglas Heaven 引用了它，但它本身值得專門關注。APEX 包含 480 個專業任務，由在頂尖投資銀行、管理顧問公司和企業法律事務所有 10 年以上經驗的專家構造。智能體在 33 個模擬"世界"裡工作，每個都是一個完整的 Google Workspace 環境，包含 Slack 線程、Drive 檔案、試算表和 PDF，模型必須真的去導航，而不是一個剝光的 API 基準。上週的排行榜：GPT-5.5（xhigh）37.7%、GPT-5.4（xhigh）33.3%、Claude Opus 4.6 33.0%、Gemini 3.1 Pro Preview 32.0%。Mercor 自己的結論：還沒有模型可以端到端取代一個專業人員。MIT 科技評論的框架更狠：這是 AI-取代-工作這個敘事一直過敏的那個資料點。

基準浮出的技術現實是，前沿模型在能力上趨同，同時還在三個真實工作任務裡失敗兩個。前三家實驗室之間 1.3 個百分點的差距本身就很驚人；我們已經到了實驗室和實驗室之間的差異化比專業多步工作上的絕對能力天花板更不重要的那個點上。APEX 衡量的任務不是 MMLU 甚至 SWE-Bench 這種玩具基準；這些是初級銀行家、律師或顧問在頭兩年會接到的具體交付物，嵌在凌亂的真實 Workspace 上下文裡——你必須找到對的試算表、解析無結構的 Slack 線程、交叉引用 PDF，產出另一個專業人員能接受的輸出。模型在規劃和研究子步驟上表現優秀，這跟現有文獻吻合，但在 Mercor 稱為"策略判斷"的部分上失敗：那部分工作的答案依賴於你知道公司或客戶真正想要什麼——這不在任何文件裡。這與 MIT 科技評論文章裡引用的另一項研究一致，Anthropic 基於任務分析預測了崗位替代機率，但不得不承認這不衡量當智能體被扔進一個有真實同事和真實機構上下文的真實工作流時會發生什麼。

更廣的含義對 AI 多頭和 AI 空頭都不舒服，這部分就是為什麼這個資料值得認真對待。多頭從聊天基準和 demo 推測到"智能體會在 18 個月內取代知識工作者"；APEX 說現在的前沿智能體連一個初級銀行家真實一天的大部分任務都完不成。空頭從當前失敗推測到"這整件事是個泡沫"；APEX 也顯示 GPT-5.5 在一次迭代裡從 33.3 跳到 37.7，這是在抗刷分的任務上的有意義的能力跳躍。誠實的解讀就是 Mercor 與排行榜一同發布的那個：基礎模型在這類工作上穩步變好，改進速度是真實的，到專業級端到端完成的差距也是真實的，而且下個季度內不會閉合。MIT 科技評論呼籲"少猜多證，模型生產方透明、研究者和企業協作、新評估方法"——本質上就是要更多 APEX 風格的基準。現在還不多；APEX、OSWorld、TAU-Bench 和少數幾個其他基準在做承重工作，就像 ARC、MMLU 和 HumanEval 為上一代做的那樣。

對發企業級智能體產品的工程師來說，可行動的解讀是把 APEX 分數當成清醒檢查，而不是營銷證據。如果一個前沿模型在 Workspace 等價環境裡通過率是三分之一，你在生產裡的智能體就會差不多——除非你建了領域特定的鷹架（驗證器、檢索、窄工具集）來實質性地縮小任務表面。那些發智能體產品聲稱企業成功率高的實驗室，幾乎總是在匯報一個比 APEX 衡量的窄得多的任務分布，差就差在這個 MIT 科技評論說"缺失"的差距。三個具體建議：第一，在內部評估智能體時，建你自己版本的凌亂 Workspace 設定，不要用乾淨的 API 套殼；30 到 40 個百分點的性能差異在兩者間是常態。第二，圍繞"策略判斷失敗"這個失敗模式來設計產品：在答案依賴於智能體看不到的上下文的部分保留人在迴路，自動化模型確實做得好的研究和起草子步驟。第三，預期排行榜會繼續往上爬；按"18 個月內 APEX 分數到 60-70%"來規劃路線圖，比"2026 年取代"或"永遠不會"都更合理。真正的故事在第二步，APEX 是這個領域最接近"我們到底走到第二步多遠"的那個測量。

MIT 科技評論端出 APEX-Agents 基準：前沿模型在真實工作任務上只過 33%

更多新聞