Investigadores de Google DeepMind construyeron AlphaEvolve, un sistema impulsado por LLM que automáticamente evoluciona algoritmos de teoría de juegos reescribiendo su código fuente. Usando Gemini 2.5 Pro, el sistema descubrió nuevas variantes de Counterfactual Regret Minimization (CFR) y Policy Space Response Oracles (PSRO) que superaron algoritmos existentes diseñados manualmente en juegos de información imperfecta como poker. El sistema comienza con una implementación base, luego muta iterativamente el código, evalúa candidatos en juegos proxy, y agrega variantes exitosas a la población.

Esto se basa directamente en nuestra cobertura previa de AlphaEvolve resolviendo problemas matemáticos sin resolver a través de evolución de código. Lo que es impactante aquí no son solo las ganancias de rendimiento—es que el sistema está descubriendo innovaciones algorítmicas en un campo donde expertos han iterado manualmente durante décadas. Los algoritmos de teoría de juegos para escenarios multi-agente han dependido de intuición humana y prueba-error para desarrollar esquemas de ponderación y solucionadores de equilibrio. Tener un LLM que sistemáticamente explore este espacio y encuentre mejoras sugiere que estamos entrando en una fase donde la IA puede contribuir significativamente a la investigación algorítmica misma.

Los investigadores probaron en frameworks establecidos como OpenSpiel, enfocándose en CFR (que construye estrategias acumulando 'arrepentimiento contrafactual') y PSRO (que mantiene poblaciones de políticas y computa meta-estrategias). Usaron oráculos de mejor respuesta exacta y cálculos de recompensa, removiendo ruido Monte Carlo de los resultados. El hecho de que la evolución automática de código consistentemente encontrara mejoras sobre DCFR, PCFR+, y otras variantes diseñadas manualmente es notable—estos no son problemas de juguete sino desafíos algorítmicos reales.

Para desarrolladores construyendo sistemas multi-agente o trabajando en problemas de teoría de juegos, esto sugiere que el descubrimiento de algoritmos impulsado por LLM podría convertirse en una herramienta viable. En lugar de ajustar manualmente parámetros o diseñar nuevas variantes, pronto podrías alimentar tu algoritmo a un sistema de evolución y dejarlo descubrir mejoras. La pregunta es si este enfoque escala más allá de teoría de juegos a otros dominios algorítmicos—y si el costo computacional justifica las ganancias.