DeepMind 這週發布了 Aletheia,一個面向全自主數學研究的多 agent 系統。這裡的門檻不是 IMO 風格的競賽題(那些已經有成型結構和現成答案),而是沒有任何人類前置提示的研究級未發表引理。研究團隊在 FirstProof Challenge 上做了評測,共 10 條這類引理,Aletheia 解出了 6 條。這 6 條被專家評審判定為「經過小修可發表」的級別。在更結構化的 IMO-ProofBench 上,Aletheia 達到 91.9% 的準確率。這些是第一批具體數字,說明前沿模型在沒有人類監督的情況下,正從「競賽數學求解器」向「研究數學合作者」邁出可量化的一步。
架構裡才是對開發者真正有用的一課。Aletheia 是一個跑在 Gemini 3 Deep Think 上的三角色迴圈:生成器提出邏輯步驟、驗證器逐步檢查漏洞、修訂者迭代修補錯誤。包括 Google Search 在內的外部工具被接入,用來核驗概念引用,減少幻覺出來的參考文獻。關鍵是,系統被允許輸出「未找到解」而不是偽造證明,這正是本週稍早把 Google Auto-Diagnose 的 CI 分診根因準確率維持在 90% 以上的同一條「歧義時拒絕」紀律,也(從設計上可推斷)是 AWS Bedrock DevOps Agent 能在事件上跑出 94% 的那條同樣紀律。三個獨立系統、三個不同領域、同一週、同一套架構配方。
這種收斂本身就是新聞。過去兩年裡 agentic 系統最主流的問題是「你需要更大的模型還是更聰明的殼」,而最近這幾次發布給出的答案既不是前者也不是後者,嚴格說,是「多 agent 編排 + 拒絕」。收益來自把生成、驗證和修訂分成不同角色,給每個角色接入外部工具,再給整個系統允許棄權的權利。Aletheia 還加了數學獨有的一筆:Gemini 3 Deep Think 拿到了延長的 test-time compute(明確地用延遲換可靠性),但真正挑大樑的仍是多 agent 迴圈。Aletheia 和 OpenAI 早期依賴人工監督的數學方案的對照,是最乾淨的示意圖:把人換成「驗證者 + 修訂者」這對組合,任務就變成了零樣本。
如果你在任何領域構建 agent,可落地的三條建議是複製架構,而不是複製模型。第一,把你的 agent 拆成生成器 / 驗證器 / 修訂者三種角色,各自有獨立的 prompt 和工具權限,而不是把單次呼叫放進迴圈。第二,給系統一個明確的拒絕原語(「未找到解」或等價說法),並在證據稀薄時獎勵它用這個原語;這比換更大的模型帶來的準確率提升更值錢。第三,給 test-time compute 做預算:Aletheia、Auto-Diagnose、AWS DevOps Agent 都是拿延遲換可靠性,對的問題是如何塑造這個算力預算,而不是該叫哪個模型。Aletheia 的第二次迭代和正式基準安排在 2026 年 3-6 月;盯緊「可發表證明」這個數字是否繼續爬升,如果是,那就說明生成器-驗證器-修訂者架構比單純做大單個模型更有空間。
