微軟研究院的一篇預印本剛剛發布了一個名為 DELEGATE-52 的基準,主標數字非常尖銳:GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro 在長委託工作流結束時平均損壞 25% 的文件內容。該論文——《LLMs Corrupt Your Documents When You Delegate》由 Philippe Laban、Tobias Schnabel 和 Jennifer Neville 撰寫——在 52 個專業領域(包括程式碼、晶體學和音樂記譜)總共評估了 19 個 LLM。這是一篇預印本,尚未經過同行評審,基準故意測試擴展委託工作流而不是單回合請求。這種框架很重要:這不是「模型能否編輯一個文件」,而是「當你給模型一個多步編輯工作然後走開時會發生什麼」。
被命名的三個降級因素是具體且可測試的:文件大小、互動長度,以及工作上下文中存在干擾檔案。在報告的結果中,這三個因素都使損壞更嚴重。這直接映射到野外智能體工作流的操作形態——長上下文、多回合、智能體可以看到的許多相鄰檔案——並解釋了為什麼在真實程式碼庫上運行長 Claude Code 或 Codex 會話的團隊一直在軼事性地報告同一類故障。基準為該軼事賦予了一個數字,附加到特定的前沿模型版本,有發布的測試套件而不是供應商自我報告。Futurism 的伴隨報導指出,微軟自己的 Copilot 被排除在前沿模型評估之外——你想怎麼解讀就怎麼解讀,但這種缺席值得標註。
誠實的警告:25% 是 52 個領域的平均值,而平均值掩蓋方差——如果沒有按領域細分,你無法判斷程式碼文件的損壞率是 5% 而晶體學是 60%,還是結果是均勻的。摘要沒有確定「內容損壞」的操作定義——是指事實錯誤、句法破壞、遺失部分、幻覺添加,還是某種加權合成。預印本狀態意味著方法論會在評審中被拆解,測試套件的細節對任何試圖複製的團隊都很重要。這一切都不會使主標無效;它只是意味著主標是閱讀的開始,而不是結束。
對於出貨委託工作流的構建者:實際含義是「把文件發給模型並要求它通過十個步驟編輯」在前沿模型品質下還不是一個安全的抽象。要麼讓人類在每次提交中都在場,要麼縮短委託範圍,要麼在傳播更改前在每一步使用文件差異驗證。在論文更新時關注 arxiv.org/abs/2604.15597 以獲取完整 PDF 和按領域的數字——那些數字會告訴你哪些特定類型的文件工作仍然安全委託,哪些處於分布的 25%-損壞端。
