DeepMind 本周发布了 AlphaEvolve 的一周年影响报告 —— 这是 2025 年 5 月推出的 Gemini 驱动的编码 agent,用于自主发现和优化算法。结果异常具体:DNA 变异检测误差减少 30%,电网优化可行解从 14% 到 88%,Google Willow 量子处理器误差减少 10 倍,反直觉的 TPU 电路设计最终进入硅片。对于任何想知道"AI 做科学"是营销还是实质的人,这是实质的一面。
AlphaEvolve 是建立在 Gemini 之上的 agentic 系统,通过迭代生成、评估和改进候选解决方案来发现算法,以已定义的 fitness 函数为标准 —— 在形式上更接近用 LLM 提案/批判包装的进化搜索,而不是 chain-of-thought 推理。2025 年的原始论文描述了机制;本周的发布报告了部署结果。具体收益:Spanner 写入放大下降 20%,编译器占用下降 9%,数学家 Terence Tao 与它合作研究 Erdős 问题和 Ramsey 数界限,旅行商问题界限改进。商业客户:Klarna 将 transformer 训练速度翻倍;FM Logistic 通过路由优化每年节省 15,000 公里(10.4% 效率收益);WPP 获得 10% 更好的活动建模准确度;Schrödinger 在 ML 力场训练和推理上获得 4× 加速。Google Cloud 是访问路径 —— 没有 open-source 发布,没有论文更新,只是一年前发表的方法学的部署模式覆盖更新。
编码 agent 主要被定位为开发者生产力工具 —— Claude Code、Cursor、GitHub Copilot —— 在人类定义问题的服务下生成代码。AlphaEvolve 属于不同类别:人类定义问题,agent 在算法空间中搜索直到收敛于比现有更好的东西。这份报告中的大多数收益来自已经存在已知接近最优的解决方案而 AlphaEvolve 找到了更好的问题 —— "反直觉的"TPU 电路设计进入硅片是最强信号,表明这不是把已知技巧缝在一起。对研究实验室来说,影响是算法改进在具有干净 fitness 函数的问题上可能不会保持为人类研究员的专属领域。对其他所有人:20% 更低的 Spanner 存储成本、10× 更干净的量子操作,以及 30% 更少的测序错误在没有被宣布的情况下静静地复合成改变下游产品的事物。
AlphaEvolve 通过 Google Cloud 进行 API 门控,不开源。alphaevolve-examples.web.app 的交互式画廊展示了无需账号要求的具体案例。如果你有一个具有可衡量 fitness 函数的困难优化问题 —— kernel 级性能、路由、电路设计、药物筛选 —— 这是值得观察的 agent 形态。如果你做的是成功主观的知识工作,这不是你的工具。要跟踪的更大模式:AlphaEvolve 和 OpenAI 最近关于 ML 研究自动化的声明指向同一方向(agent 做算法工作,而不仅仅是配管工作),这可能是 agent 竞赛超越"给我写一个 Python 脚本"的下一个前沿。
