DeepMind a publié cette semaine un rapport d'impact an 1 sur AlphaEvolve, l'agent de code propulsé par Gemini introduit en mai 2025 pour découvrir et optimiser des algorithmes de façon autonome. Les résultats sont inhabituellement concrets : 30 % de réduction d'erreur en détection de variants ADN, 14 %→88 % de solutions faisables sur l'optimisation des réseaux électriques, erreur quantique divisée par 10 sur le processeur Willow de Google, et designs de circuits TPU contre-intuitifs qui ont fini dans le silicium. Pour quiconque se demandait si « l'IA fait de la science » était du marketing ou de la substance, voici le côté substance.

AlphaEvolve est un système agentique bâti sur Gemini qui découvre des algorithmes en générant, évaluant et raffinant itérativement des solutions candidates contre une fonction de fitness définie — plus proche en forme d'une recherche évolutionnaire enveloppée d'une proposition/critique LLM que d'un raisonnement chain-of-thought. Le papier original de 2025 décrivait le mécanisme ; la publication de cette semaine rapporte les résultats déployés. Gains spécifiques : amplification d'écriture Spanner en baisse de 20 %, empreinte compilateur en baisse de 9 %, le mathématicien Terence Tao a collaboré avec lui sur les problèmes d'Erdős et les bornes de nombres de Ramsey, bornes du problème du voyageur de commerce améliorées. Clients commerciaux : Klarna a doublé la vitesse d'entraînement transformer ; FM Logistic a économisé 15 000 km/an via optimisation de routage (gain d'efficacité 10,4 %) ; WPP a obtenu 10 % de précision en plus sur la modélisation de campagne ; Schrödinger a obtenu 4× d'accélération en entraînement et inférence de force field ML. Google Cloud est le chemin d'accès — pas de libération open-source, pas de mise à jour de papier, juste une mise à jour mode-déploiement de méthodologie publiée l'an dernier.

Les agents de code ont été surtout positionnés comme outils de productivité dev — Claude Code, Cursor, GitHub Copilot — générant du code au service de problèmes définis humainement. AlphaEvolve est dans une catégorie différente : l'humain définit le problème, l'agent cherche dans l'espace d'algorithmes jusqu'à converger sur quelque chose de meilleur que ce qui existait. La plupart des gains de ce rapport viennent de problèmes où une solution optimale-ish était déjà connue et AlphaEvolve en a trouvé une meilleure — les designs de circuits TPU « contre-intuitifs » qui passent en silicium sont le signal le plus fort que ce n'est pas juste recoudre des trucs connus. Pour les labos de recherche, l'implication est que l'amélioration algorithmique ne restera peut-être pas la province exclusive des chercheurs humains pour les problèmes avec fonctions de fitness propres. Pour tous les autres : 20 % de stockage Spanner en moins, 10× d'opérations quantiques plus propres, et 30 % d'erreurs de séquençage en moins se compoundent silencieusement en choses qui changent les produits aval sans jamais être annoncées.

AlphaEvolve est sous API gatée via Google Cloud, pas open-source. La galerie interactive à alphaevolve-examples.web.app montre des cas concrets sans exigence de compte. Si vous avez un problème d'optimisation difficile avec une fonction de fitness mesurable — performance niveau kernel, routage, design de circuit, criblage de médicaments — c'est la forme d'agent à surveiller. Si vous faites du travail de connaissance où le succès est subjectif, ce n'est pas votre outil. Le pattern plus large à suivre : AlphaEvolve et les revendications récentes d'OpenAI sur l'automatisation de la recherche ML pointent dans la même direction (agents faisant du travail algorithmique, pas juste de la plomberie), et c'est probablement la prochaine frontière de la course aux agents au-delà de « écris-moi un script Python ».