Google DeepMind研究人員建構了AlphaEvolve,這是一個由LLM驅動的系統,透過重寫原始碼自動演化博弈論演算法。使用Gemini 2.5 Pro,該系統發現了Counterfactual Regret Minimization (CFR)和Policy Space Response Oracles (PSRO)的新變種,在撲克等不完全資訊博弈中超越了現有的手工設計演算法。系統從基準實作開始,然後迭代變異程式碼,在代理遊戲上評估候選者,並將成功變種加入族群中。
這直接建立在我們先前對AlphaEvolve透過程式碼演化破解未解數學問題的報導基礎上。這裡令人震驚的不僅僅是效能提升——而是系統在一個專家們手動迭代了數十年的領域中發現演算法創新。多代理人場景的博弈論演算法一直依賴人類直覺和試錯來開發權重方案和均衡求解器。讓LLM系統性地探索這個空間並找到改進,顯示我們正在進入AI能夠有意義地貢獻演算法研究本身的階段。
研究人員在OpenSpiel等已建立框架上進行測試,專注於CFR(透過累積「反事實遺憾」建構策略)和PSRO(維護策略族群並計算元策略)。他們使用精確最佳回應oracle和報酬計算,從結果中去除Monte Carlo雜訊。自動化程式碼演化持續發現比DCFR、PCFR+和其他手動設計變種更好的改進,這一事實值得注意——這些不是玩具問題,而是真正的演算法挑戰。
對於建構多代理人系統或處理博弈論問題的開發者,這顯示LLM驅動的演算法發現可能成為一個可行的工具。與其手動調整參數或設計新變種,你可能很快就能將演算法輸入演化系統,讓它發現改進。問題是這種方法是否能從博弈論擴展到其他演算法領域——以及計算成本是否證明收益的合理性。
