DeepMind 这周发布了 Aletheia,一个面向全自主数学研究的多 agent 系统。这里的门槛不是 IMO 风格的竞赛题(那些已经有成型结构和现成答案),而是没有任何人类前置提示的研究级未发表引理。研究团队在 FirstProof Challenge 上做了评测,共 10 条这类引理,Aletheia 解出了 6 条。这 6 条被专家评审判定为「经过小修可发表」的级别。在更结构化的 IMO-ProofBench 上,Aletheia 达到 91.9% 的准确率。这些是第一批具体数字,说明前沿模型在没有人类监督的情况下,正从「竞赛数学求解器」向「研究数学合作者」迈出可量化的一步。

架构里才是对开发者真正有用的一课。Aletheia 是一个跑在 Gemini 3 Deep Think 上的三角色循环:生成器提出逻辑步骤、验证器逐步检查漏洞、修订者迭代修补错误。包括 Google Search 在内的外部工具被接入,用来核验概念引用,减少幻觉出来的参考文献。关键是,系统被允许输出「未找到解」而不是伪造证明,这正是本周稍早把谷歌 Auto-Diagnose 的 CI 分诊根因准确率维持在 90% 以上的同一条「歧义时拒绝」纪律,也(从设计上可推断)是 AWS Bedrock DevOps Agent 能在事件上跑出 94% 的那条同样纪律。三个独立系统、三个不同领域、同一周、同一套架构配方。

这种收敛本身就是新闻。过去两年里 agentic 系统最主流的问题是「你需要更大的模型还是更聪明的壳」,而最近这几次发布给出的答案既不是前者也不是后者,严格说,是「多 agent 编排 + 拒绝」。收益来自把生成、验证和修订分成不同角色,给每个角色接入外部工具,再给整个系统允许弃权的权利。Aletheia 还加了数学独有的一笔:Gemini 3 Deep Think 拿到了延长的 test-time compute(显式地用延迟换可靠性),但真正挑大梁的仍是多 agent 循环。Aletheia 和 OpenAI 早期依赖人工监督的数学方案的对照,是最干净的示意图:把人换成「验证者 + 修订者」这对组合,任务就变成了零样本。

如果你在任何领域构建 agent,可落地的三条建议是复制架构,而不是复制模型。第一,把你的 agent 拆成生成器 / 验证器 / 修订者三种角色,各自有独立的 prompt 和工具权限,而不是把单次调用放进循环。第二,给系统一个明确的拒绝原语(「未找到解」或等价说法),并在证据稀薄时奖励它用这个原语;这比换更大的模型带来的准确率提升更值钱。第三,给 test-time compute 做预算:Aletheia、Auto-Diagnose、AWS DevOps Agent 都是拿延迟换可靠性,对的问题是如何塑造这个算力预算,而不是该叫哪个模型。Aletheia 的第二次迭代和正式基准安排在 2026 年 3-6 月;盯紧「可发表证明」这个数字是否继续爬升,如果是,那就说明生成器-验证器-修订者架构比单纯做大单个模型更有空间。