Google DeepMind研究人员构建了AlphaEvolve,这是一个由LLM驱动的系统,通过重写源代码自动演化博弈论算法。使用Gemini 2.5 Pro,该系统发现了Counterfactual Regret Minimization (CFR)和Policy Space Response Oracles (PSRO)的新变种,在扑克等不完全信息博弈中超越了现有的手工设计算法。系统从基线实现开始,然后迭代变异代码,在代理游戏上评估候选者,并将成功变种添加到种群中。

这直接建立在我们之前对AlphaEvolve通过代码演化破解未解数学问题的报道基础上。这里令人震惊的不仅仅是性能提升——而是系统在一个专家们手动迭代了几十年的领域中发现算法创新。多智能体场景的博弈论算法一直依赖人类直觉和试错来开发权重方案和均衡求解器。让LLM系统性地探索这个空间并找到改进,表明我们正在进入AI能够有意义地贡献算法研究本身的阶段。

研究人员在OpenSpiel等已建立框架上进行测试,专注于CFR(通过累积"反事实遗憾"构建策略)和PSRO(维护策略种群并计算元策略)。他们使用精确最佳响应oracle和收益计算,从结果中去除Monte Carlo噪声。自动化代码演化持续发现比DCFR、PCFR+和其他手动设计变种更好的改进,这一事实值得注意——这些不是玩具问题,而是真正的算法挑战。

对于构建多智能体系统或处理博弈论问题的开发者,这表明LLM驱动的算法发现可能成为一个可行的工具。与其手动调整参数或设计新变种,你可能很快就能将算法输入演化系统,让它发现改进。问题是这种方法是否能从博弈论扩展到其他算法领域——以及计算成本是否证明收益的合理性。