MIT 科技评论端出 APEX-Agents 基准：前沿模型在真实工作任务上只过 33%

MIT 科技评论的 AI 简报今天用一个所谓"内裤地精"问题来组织文章：第一步是造模型，第三步是企业转型，第二步基本上是挥挥手糊弄过去。框架背后的具体证据是 Mercor 的 APEX-Agents 基准，Will Douglas Heaven 引用了它，但它本身值得专门关注。APEX 包含 480 个专业任务，由在顶尖投资银行、管理咨询公司和企业法律事务所有 10 年以上经验的专家构造。智能体在 33 个模拟"世界"里工作，每个都是一个完整的 Google Workspace 环境，包含 Slack 线程、Drive 文件、电子表格和 PDF，模型必须真的去导航，而不是一个剥光的 API 基准。上周的排行榜：GPT-5.5（xhigh）37.7%、GPT-5.4（xhigh）33.3%、Claude Opus 4.6 33.0%、Gemini 3.1 Pro Preview 32.0%。Mercor 自己的结论：还没有模型可以端到端取代一个专业人员。MIT 科技评论的框架更狠：这是 AI-取代-工作这个叙事一直过敏的那个数据点。

基准浮出的技术现实是，前沿模型在能力上趋同，同时还在三个真实工作任务里失败两个。前三家实验室之间 1.3 个百分点的差距本身就很惊人；我们已经到了实验室和实验室之间的差异化比专业多步工作上的绝对能力天花板更不重要的那个点上。APEX 衡量的任务不是 MMLU 甚至 SWE-Bench 这种玩具基准；这些是初级银行家、律师或顾问在头两年会接到的具体交付物，嵌在凌乱的真实 Workspace 上下文里——你必须找到对的电子表格、解析无结构的 Slack 线程、交叉引用 PDF，产出另一个专业人员能接受的输出。模型在规划和研究子步骤上表现优秀，这跟现有文献吻合，但在 Mercor 称为"战略判断"的部分上失败：那部分工作的答案依赖于你知道公司或客户真正想要什么——这不在任何文档里。这与 MIT 科技评论文章里引用的另一项研究一致，Anthropic 基于任务分析预测了岗位替代概率，但不得不承认这不衡量当智能体被扔进一个有真实同事和真实机构上下文的真实工作流时会发生什么。

更广的含义对 AI 多头和 AI 空头都不舒服，这部分就是为什么这个数据值得认真对待。多头从聊天基准和 demo 推测到"智能体会在 18 个月内取代知识工作者"；APEX 说现在的前沿智能体连一个初级银行家真实一天的大部分任务都完不成。空头从当前失败推测到"这整件事是个泡沫"；APEX 也显示 GPT-5.5 在一次迭代里从 33.3 跳到 37.7，这是在抗刷分的任务上的有意义的能力跳跃。诚实的解读就是 Mercor 与排行榜一同发布的那个：基础模型在这类工作上稳步变好，改进速度是真实的，到专业级端到端完成的差距也是真实的，而且下个季度内不会闭合。MIT 科技评论呼吁"少猜多证，模型生产方透明、研究者和企业协作、新评估方法"——本质上就是要更多 APEX 风格的基准。现在还不多；APEX、OSWorld、TAU-Bench 和少数几个其他基准在做承重工作，就像 ARC、MMLU 和 HumanEval 为上一代做的那样。

对发企业级智能体产品的工程师来说，可行动的解读是把 APEX 分数当成清醒检查，而不是营销证据。如果一个前沿模型在 Workspace 等价环境里通过率是三分之一，你在生产里的智能体就会差不多——除非你建了领域特定的脚手架（验证器、检索、窄工具集）来实质性地缩小任务表面。那些发智能体产品声称企业成功率高的实验室，几乎总是在汇报一个比 APEX 衡量的窄得多的任务分布，差就差在这个 MIT 科技评论说"缺失"的差距。三个具体建议：第一，在内部评估智能体时，建你自己版本的凌乱 Workspace 设置，不要用干净的 API 套壳；30 到 40 个百分点的性能差异在两者间是常态。第二，围绕"战略判断失败"这个失败模式来设计产品：在答案依赖于智能体看不到的上下文的部分保留人在回路，自动化模型确实做得好的研究和起草子步骤。第三，预期排行榜会继续往上爬；按"18 个月内 APEX 分数到 60-70%"来规划路线图，比"2026 年取代"或"永远不会"都更合理。真正的故事在第二步，APEX 是这个领域最接近"我们到底走到第二步多远"的那个测量。

MIT 科技评论端出 APEX-Agents 基准：前沿模型在真实工作任务上只过 33%

更多新闻