A DeepMind publicou esta semana um relatório de impacto do ano 1 sobre o AlphaEvolve, o agente de código alimentado por Gemini introduzido em maio de 2025 para descobrir e otimizar algoritmos de forma autônoma. Os resultados são incomumente concretos: 30% de redução de erro em detecção de variantes de DNA, 14%→88% de soluções viáveis em otimização de rede elétrica, erro quântico 10× menor no processador Willow do Google, e designs de circuitos TPU contraintuitivos que acabaram em silício. Para quem se perguntava se "IA faz ciência" era marketing ou substância, este é o lado substância.
O AlphaEvolve é um sistema agêntico construído sobre o Gemini que descobre algoritmos gerando, avaliando e refinando iterativamente soluções candidatas contra uma função de fitness definida — mais próximo em forma de busca evolutiva envolta em proposta/crítica LLM do que de raciocínio chain-of-thought. O paper original de 2025 descreveu o mecanismo; o lançamento desta semana relata os resultados implantados. Ganhos específicos: amplificação de escrita no Spanner caiu 20%, pegada do compilador caiu 9%, o matemático Terence Tao colaborou com ele em problemas de Erdős e cotas de números de Ramsey, cotas do problema do caixeiro-viajante melhoradas. Clientes comerciais: Klarna dobrou a velocidade de treinamento transformer; FM Logistic economizou 15.000 km/ano via otimização de rotas (ganho de eficiência 10,4%); WPP obteve 10% mais precisão em modelagem de campanha; Schrödinger obteve aceleração 4× em treinamento e inferência de campo de forças ML. Google Cloud é o caminho de acesso — sem lançamento open-source, sem atualização de paper, apenas uma atualização modo-deploy da metodologia publicada no ano passado.
Agentes de código foram principalmente posicionados como ferramentas de produtividade de desenvolvedores — Claude Code, Cursor, GitHub Copilot — gerando código em serviço de problemas definidos por humanos. AlphaEvolve está em uma categoria diferente: o humano define o problema, o agente busca no espaço de algoritmos até convergir em algo melhor do que existia. A maioria dos ganhos neste relatório vem de problemas onde já havia uma solução ótima-ish conhecida e o AlphaEvolve encontrou uma melhor — os designs de circuitos TPU "contraintuitivos" indo para silício são o sinal mais forte de que isso não é apenas costurar truques conhecidos. Para laboratórios de pesquisa, a implicação é que a melhoria algorítmica pode não permanecer província exclusiva de pesquisadores humanos em problemas com funções de fitness limpas. Para todos os outros: 20% menos custo de armazenamento Spanner, 10× operações quânticas mais limpas, e 30% menos erros de sequenciamento se compõem silenciosamente em coisas que mudam produtos a jusante sem nunca serem anunciadas.
AlphaEvolve está acessível via API através do Google Cloud, não open-source. A galeria interativa em alphaevolve-examples.web.app mostra casos concretos sem exigência de conta. Se você tem um problema de otimização difícil com uma função de fitness mensurável — performance a nível de kernel, rotas, design de circuito, triagem de fármacos — essa é a forma de agente a observar. Se você faz trabalho de conhecimento onde o sucesso é subjetivo, essa não é sua ferramenta. O padrão maior a seguir: AlphaEvolve e as alegações recentes da OpenAI sobre automação de pesquisa ML apontam na mesma direção (agentes fazendo trabalho algorítmico, não apenas encanamento), e essa é provavelmente a próxima fronteira da corrida de agentes além de "me escreva um script Python".
