DeepMind a présenté Aletheia cette semaine, un système multi-agent pour la recherche mathématique autonome. La barre, c'est pas les problèmes de style concours IMO, qui ont déjà une structure connue pis des solutions cataloguées, mais des lemmes niveau-recherche non publiés sans indices humains préexistants. L'équipe de recherche a évalué sur FirstProof Challenge, dix de ces lemmes, pis Aletheia en a résolu six. Les six ont été jugés publiables après révisions mineures par des évaluateurs experts. Sur l'IMO-ProofBench plus structuré, Aletheia atteint 91,9% de précision. C'est les premiers chiffres concrets qui suggèrent que les modèles frontières peuvent fermer l'écart entre « solveur de maths de concours » pis « collaborateur de maths de recherche » sans supervision humaine.

L'architecture, c'est là où la leçon pour les développeurs se trouve. Aletheia, c'est une boucle de trois rôles spécialisés qui roulent sur Gemini 3 Deep Think : un Générateur propose des étapes logiques, un Vérificateur évalue chaque étape pour des failles, pis un Réviseur itère pis répare les erreurs. Des outils externes incluant Google Search sont branchés pour vérifier les citations de concepts pis réduire les références hallucinées. Surtout, le système a le droit de sortir « pas de solution trouvée » plutôt que fabriquer une preuve, ce qui est la même discipline de refus-sur-ambiguïté qui a gardé l'Auto-Diagnose de Google à 90% de précision cause-racine sur le triage CI plus tôt cette semaine, pis qui (par inférence de son design) sous-tend l'Agent DevOps Bedrock d'AWS qui a frappé 94% sur les incidents. Trois systèmes indépendants dans trois domaines différents, même semaine, même recette architecturale.

La convergence, c'est ça l'histoire. Dans les deux dernières années, la question dominante pour les systèmes agentiques c'était « t'as besoin d'un plus gros modèle ou d'un wrapper plus smart ». La réponse qui émerge de ces sorties c'est ni l'un ni l'autre, strictement : c'est l'orchestration multi-agent avec refus. Le gain vient de séparer la génération, la vérification pis la révision en rôles distincts, de donner à chaque rôle l'accès à des outils externes, pis de donner au système en entier la permission de s'abstenir. Aletheia ajoute la nuance spécifique aux maths que Gemini 3 Deep Think reçoit du compute étendu au test-time (explicitement échangé contre la latence) mais c'est la boucle multi-agent qui fait le gros du travail. Le contraste d'Aletheia avec l'approche maths plus ancienne d'OpenAI, qui reposait sur la supervision humaine, c'est l'illustration la plus nette : remplace l'humain par une paire vérificateur-réviseur pis la tâche devient zero-shot.

Si tu bâtis des agents dans n'importe quel domaine, le takeaway pratique c'est de copier la forme, pas le modèle. Trois affaires se transfèrent directement. Premièrement, divise ton agent en rôles générateur/vérificateur/réviseur avec des prompts pis des accès d'outils distincts plutôt que faire rouler un seul appel en boucle. Deuxièmement, donne au système une primitive de refus explicite (« pas de solution trouvée » ou équivalent) pis récompense-le pour l'utiliser quand la preuve est mince ; ça vaut plus que n'importe quel gain de précision venu d'un plus gros modèle. Troisièmement, budgète pour le compute étendu au test-time : Aletheia, Auto-Diagnose pis l'Agent DevOps AWS échangent tous la latence contre la fiabilité, pis la bonne question c'est comment tu façonnes ce budget de compute, pas quel modèle tu appelles. La deuxième itération d'Aletheia plus un benchmark formel sont prévus pour mars-juin 2026 ; surveille si le chiffre des preuves publiables continue à monter, ce qui suggérerait que l'architecture générateur-vérificateur-réviseur a plus de marge que le scaling d'un seul modèle.