微软研究院的一篇预印本刚刚发布了一个名为 DELEGATE-52 的基准,主标数字非常尖锐:GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro 在长委托工作流结束时平均损坏 25% 的文档内容。该论文——《LLMs Corrupt Your Documents When You Delegate》由 Philippe Laban、Tobias Schnabel 和 Jennifer Neville 撰写——在 52 个专业领域(包括代码、晶体学和音乐记谱)总共评估了 19 个 LLM。这是一篇预印本,尚未经过同行评审,基准故意测试扩展委托工作流而不是单回合请求。这种框架很重要:这不是「模型能否编辑一个文档」,而是「当你给模型一个多步编辑工作然后走开时会发生什么」。

被命名的三个降级因素是具体且可测试的:文档大小、交互长度,以及工作上下文中存在干扰文件。在报告的结果中,这三个因素都使损坏更严重。这直接映射到野外智能体工作流的操作形态——长上下文、多回合、智能体可以看到的许多相邻文件——并解释了为什么在真实代码库上运行长 Claude Code 或 Codex 会话的团队一直在轶事性地报告同一类故障。基准为该轶事赋予了一个数字,附加到特定的前沿模型版本,有发布的测试套件而不是供应商自我报告。Futurism 的伴随报道指出,微软自己的 Copilot 被排除在前沿模型评估之外——你想怎么解读就怎么解读,但这种缺席值得标注。

诚实的警告:25% 是 52 个领域的平均值,而平均值掩盖方差——如果没有按领域细分,你无法判断代码文档的损坏率是 5% 而晶体学是 60%,还是结果是均匀的。摘要没有确定「内容损坏」的操作定义——是指事实错误、句法破坏、丢失部分、幻觉添加,还是某种加权合成。预印本状态意味着方法论会在评审中被拆解,测试套件的细节对任何试图复制的团队都很重要。这一切都不会使主标无效;它只是意味着主标是阅读的开始,而不是结束。

对于发货委托工作流的构建者:实际含义是「把文档发给模型并要求它通过十个步骤编辑」在前沿模型质量下还不是一个安全的抽象。要么让人类在每次提交中都在场,要么缩短委托范围,要么在传播更改前在每一步使用文档差异验证。在论文更新时关注 arxiv.org/abs/2604.15597 以获取完整 PDF 和按领域的数字——那些数字会告诉你哪些特定类型的文档工作仍然安全委托,哪些处于分布的 25%-损坏端。