Pesquisadores do Google DeepMind construíram o AlphaEvolve, um sistema alimentado por LLM que evolui automaticamente algoritmos de teoria dos jogos reescrevendo seu código fonte. Usando Gemini 2.5 Pro, o sistema descobriu novas variantes de Counterfactual Regret Minimization (CFR) e Policy Space Response Oracles (PSRO) que superaram algoritmos existentes projetados manualmente em jogos de informação imperfeita como poker. O sistema começa com uma implementação baseline, depois muta iterativamente o código, avalia candidatos em jogos proxy, e adiciona variantes bem-sucedidas à população.
Isso se baseia diretamente na nossa cobertura anterior do AlphaEvolve resolvendo problemas matemáticos não resolvidos através de evolução de código. O que é impressionante aqui não são apenas os ganhos de performance—é que o sistema está descobrindo inovações algorítmicas em um campo onde especialistas iteraram manualmente por décadas. Algoritmos de teoria dos jogos para cenários multi-agente dependeram de intuição humana e tentativa-e-erro para desenvolver esquemas de ponderação e solucionadores de equilíbrio. Ter um LLM sistematicamente explorando esse espaço e encontrando melhorias sugere que estamos entrando numa fase onde IA pode contribuir significativamente para a própria pesquisa algorítmica.
Os pesquisadores testaram em frameworks estabelecidos como OpenSpiel, focando em CFR (que constrói estratégias acumulando 'arrependimento contrafactual') e PSRO (que mantém populações de políticas e computa meta-estratégias). Eles usaram oráculos de melhor resposta exata e cálculos de payoff, removendo ruído Monte Carlo dos resultados. O fato de que evolução automatizada de código consistentemente encontrou melhorias sobre DCFR, PCFR+, e outras variantes projetadas manualmente é notável—esses não são problemas de brinquedo mas desafios algorítmicos reais.
Para desenvolvedores construindo sistemas multi-agente ou trabalhando em problemas de teoria dos jogos, isso sugere que descoberta de algoritmos dirigida por LLM pode se tornar uma ferramenta viável. Em vez de ajustar manualmente parâmetros ou projetar novas variantes, você pode em breve alimentar seu algoritmo para um sistema de evolução e deixá-lo descobrir melhorias. A questão é se essa abordagem escala além da teoria dos jogos para outros domínios algorítmicos—e se o custo computacional justifica os ganhos.
