ReasoningBank de Google Research laisse les agents apprendre de leurs propres échecs, +8,3 % sur WebArena pis +4,6 % sur SWE-Bench-Verified

Google Research a expédié ReasoningBank aujourd'hui avec un article pis un dépôt open source. La prémisse est directe pis utile : les approches existantes de mémoire d'agent soit loggent des trajectoires d'actions exhaustives (style Synapse) qui échouent à distiller des patterns transférables, soit sauvent seulement les workflows réussis (style AWM) qui ignorent une source primaire d'apprentissage, les propres échecs de l'agent. ReasoningBank argumente que tu veux les deux, structurés.

L'architecture est mince. Chaque entrée de mémoire a trois champs : un titre (identifiant de stratégie concis), une description (résumé bref), pis un contenu (étapes de raisonnement distillées, rationalisations de décision, ou aperçus opérationnels). Au moment de l'inférence, l'agent récupère les mémoires pertinentes avant d'agir, interagit avec l'environnement, puis utilise un LLM-comme-juge pour auto-évaluer le résultat pis extraire de nouvelles mémoires. Pas de fine-tuning, tout à l'exécution. Les auteurs notent que l'auto-jugement n'a pas besoin d'être parfaitement précis ; le système est robuste au bruit de jugement. Les mémoires évoluent à travers les runs : les entrées précoces ressemblent à des checklists procédurales (« Chercher les liens de page »), les entrées plus tardives mûrissent en logique préventive (« Vérifier en continu les tâches contre des filtres de page actifs pour s'assurer que les datasets récupérés ne sont pas paginés prématurément »).

Les chiffres sont honnêtes. Sur Gemini-2.5-Flash, ReasoningBank lève le succès WebArena de 8,3 points pis SWE-Bench-Verified de 4,6 points au-dessus d'une baseline sans mémoire, pis économise environ 3 étapes d'exécution par tâche sur SWE-Bench-Verified. Avec MaTTS (scaling parallèle à k=5), +3 % additionnel sur WebArena pis 0,4 étapes de moins. Les baselines comparées incluent ReAct vanilla, Synapse (mémoire de trajectoire), pis AWM (mémoire de workflow). Ce sont des gains à un chiffre par-dessus des agents déjà capables plutôt que des sauts qui changent le framework, mais ils viennent d'une couche de mémoire qui ne coûte rien à part les appels LLM de récupération pis juge, sans entraînement requis.

Deux notes pratiques si tu construis des agents. Un, l'aperçu d'apprentissage par échec est la partie propre. Si ton système de mémoire d'agent ne stocke que les trajectoires réussies (ce qui est le défaut pour la plupart des implémentations de mémoire de workflow en circulation), tu laisses une fraction significative de tes gains potentiels sur la table. Les 4,6 points sur SWE-Bench-Verified ne viennent pas de meilleures actions ; ils viennent du stockage de ce qui a mal tourné la dernière fois dans une forme que l'agent peut récupérer la prochaine fois. Deux, le code est à github.com/google-research/reasoning-bank pis l'article est à arxiv 2509.25140. Le schéma d'entrée à trois champs est assez simple pour être rétrofité dans les boucles d'agent existantes sans réécriture, ce qui est habituellement là où ces architectures de mémoire académiques se coincent.

ReasoningBank de Google Research laisse les agents apprendre de leurs propres échecs, +8,3 % sur WebArena pis +4,6 % sur SWE-Bench-Verified

Plus de nouvelles