DeepMind 本週發布了 AlphaEvolve 的一週年影響報告 —— 這是 2025 年 5 月推出的 Gemini 驅動的編碼 agent,用於自主發現和優化演算法。結果異常具體:DNA 變異檢測誤差減少 30%,電網優化可行解從 14% 到 88%,Google Willow 量子處理器誤差減少 10 倍,反直覺的 TPU 電路設計最終進入矽片。對於任何想知道「AI 做科學」是行銷還是實質的人,這是實質的一面。

AlphaEvolve 是建立在 Gemini 之上的 agentic 系統,透過迭代生成、評估和改進候選解決方案來發現演算法,以已定義的 fitness 函數為標準 —— 在形式上更接近用 LLM 提案/批判包裝的進化搜尋,而不是 chain-of-thought 推理。2025 年的原始論文描述了機制;本週的發布報告了部署結果。具體收益:Spanner 寫入放大下降 20%,編譯器佔用下降 9%,數學家 Terence Tao 與它合作研究 Erdős 問題和 Ramsey 數界限,旅行商問題界限改進。商業客戶:Klarna 將 transformer 訓練速度翻倍;FM Logistic 透過路由優化每年節省 15,000 公里(10.4% 效率收益);WPP 獲得 10% 更好的活動建模準確度;Schrödinger 在 ML 力場訓練和推理上獲得 4× 加速。Google Cloud 是存取路徑 —— 沒有 open-source 發布,沒有論文更新,只是一年前發表的方法學的部署模式覆蓋更新。

編碼 agent 主要被定位為開發者生產力工具 —— Claude Code、Cursor、GitHub Copilot —— 在人類定義問題的服務下生成程式碼。AlphaEvolve 屬於不同類別:人類定義問題,agent 在演算法空間中搜尋直到收斂於比現有更好的東西。這份報告中的大多數收益來自已經存在已知接近最優的解決方案而 AlphaEvolve 找到了更好的問題 —— 「反直覺的」TPU 電路設計進入矽片是最強信號,表明這不是把已知技巧縫在一起。對研究實驗室來說,影響是演算法改進在具有乾淨 fitness 函數的問題上可能不會保持為人類研究員的專屬領域。對其他所有人:20% 更低的 Spanner 儲存成本、10× 更乾淨的量子操作,以及 30% 更少的定序錯誤在沒有被宣布的情況下靜靜地複合成改變下游產品的事物。

AlphaEvolve 透過 Google Cloud 進行 API 門控,不開源。alphaevolve-examples.web.app 的互動式畫廊展示了無需帳號要求的具體案例。如果你有一個具有可衡量 fitness 函數的困難優化問題 —— kernel 級效能、路由、電路設計、藥物篩選 —— 這是值得觀察的 agent 形態。如果你做的是成功主觀的知識工作,這不是你的工具。要追蹤的更大模式:AlphaEvolve 和 OpenAI 最近關於 ML 研究自動化的聲明指向同一方向(agent 做演算法工作,而不僅僅是配管工作),這可能是 agent 競賽超越「給我寫一個 Python 腳本」的下一個前沿。