Les chercheurs de Google DeepMind ont construit AlphaEvolve, un système alimenté par LLM qui fait automatiquement évoluer les algorithmes de théorie des jeux en réécrivant leur code source. En utilisant Gemini 2.5 Pro, le système a découvert de nouvelles variantes de Counterfactual Regret Minimization (CFR) et Policy Space Response Oracles (PSRO) qui ont surpassé les algorithmes existants conçus à la main dans des jeux à information imparfaite comme le poker. Le système commence avec une implémentation de base, puis mute itérativement le code, évalue les candidats sur des jeux proxy, et ajoute les variantes réussies à la population.

Ceci s'appuie directement sur notre couverture précédente d'AlphaEvolve résolvant des problèmes mathématiques non résolus grâce à l'évolution de code. Ce qui est frappant ici n'est pas seulement les gains de performance—c'est que le système découvre des innovations algorithmiques dans un domaine où les experts ont itéré manuellement pendant des décennies. Les algorithmes de théorie des jeux pour des scénarios multi-agents ont reposé sur l'intuition humaine et l'essai-erreur pour développer des schémas de pondération et des solveurs d'équilibre. Avoir un LLM qui explore systématiquement cet espace et trouve des améliorations suggère qu'on entre dans une phase où l'IA peut contribuer de manière significative à la recherche algorithmique elle-même.

Les chercheurs ont testé sur des frameworks établis comme OpenSpiel, se concentrant sur CFR (qui construit des stratégies en accumulant le 'regret contrefactuel') et PSRO (qui maintient des populations de politiques et calcule des méta-stratégies). Ils ont utilisé des oracles de meilleure réponse exacte et des calculs de gains, éliminant le bruit Monte Carlo des résultats. Le fait que l'évolution automatisée de code ait constamment trouvé des améliorations par rapport à DCFR, PCFR+, et d'autres variantes conçues manuellement est notable—ce ne sont pas des problèmes jouets mais de vrais défis algorithmiques.

Pour les développeurs construisant des systèmes multi-agents ou travaillant sur des problèmes de théorie des jeux, ceci suggère que la découverte d'algorithmes pilotée par LLM pourrait devenir un outil viable. Plutôt que d'ajuster manuellement les paramètres ou de concevoir de nouvelles variantes, vous pourriez bientôt nourrir votre algorithme à un système d'évolution et le laisser découvrir des améliorations. La question est de savoir si cette approche s'étend au-delà de la théorie des jeux à d'autres domaines algorithmiques—et si le coût computationnel justifie les gains.