ReasoningBank de Google Research deja a los agentes aprender de sus propios fracasos, +8,3% en WebArena y +4,6% en SWE-Bench-Verified

Google Research envió ReasoningBank hoy con un paper y un repo open source. La premisa es directa y útil: los enfoques existentes de memoria de agente o loguean trayectorias de acciones exhaustivas (estilo Synapse) que fallan en destilar patrones transferibles, o guardan solo workflows exitosos (estilo AWM) que ignoran una fuente primaria de aprendizaje, los propios fracasos del agente. ReasoningBank argumenta que quieres ambos, estructurados.

La arquitectura es delgada. Cada entrada de memoria tiene tres campos: un título (identificador conciso de estrategia), una descripción (resumen breve), y contenido (pasos de razonamiento destilados, racionales de decisión, o insights operacionales). En tiempo de inferencia, el agente recupera memorias relevantes antes de actuar, interactúa con el entorno, luego usa un LLM-como-juez para auto-evaluar el resultado y extraer nuevas memorias. Sin fine-tuning, todo en tiempo de ejecución. Los autores notan que el auto-juicio no necesita ser perfectamente preciso; el sistema es robusto al ruido de juicio. Las memorias evolucionan a través de corridas: las entradas tempranas parecen checklists procedurales ("Buscar enlaces de página"), las entradas más tardías maduran en lógica preventiva ("Cruzar tareas continuamente con filtros de página activos para asegurar que los datasets recuperados no estén paginados prematuramente").

Los números son honestos. En Gemini-2.5-Flash, ReasoningBank eleva el éxito de WebArena en 8,3 puntos y SWE-Bench-Verified en 4,6 puntos sobre una baseline sin memoria, y ahorra aproximadamente 3 pasos de ejecución por tarea en SWE-Bench-Verified. Con MaTTS (scaling paralelo en k=5), +3% adicional en WebArena y 0,4 pasos menos. Las baselines comparadas incluyen ReAct vainilla, Synapse (memoria de trayectoria), y AWM (memoria de workflow). Estas son ganancias de un dígito sobre agentes ya capaces en lugar de saltos que cambien el framework, pero vienen de una capa de memoria que no cuesta nada excepto las llamadas LLM de recuperación y juez, sin entrenamiento requerido.

Dos notas prácticas si estás construyendo agentes. Uno, el insight de aprendizaje por fracaso es la parte limpia. Si tu sistema de memoria de agente solo almacena trayectorias exitosas (que es el default para la mayoría de las implementaciones de memoria de workflow en circulación), estás dejando una fracción significativa de tus ganancias potenciales sobre la mesa. Los 4,6 puntos en SWE-Bench-Verified no vienen de mejores acciones; vienen de almacenar lo que salió mal la última vez en una forma que el agente puede recuperar la próxima vez. Dos, el código está en github.com/google-research/reasoning-bank y el paper está en arxiv 2509.25140. El schema de entrada de tres campos es lo bastante simple para retrofittear en loops de agente existentes sin una reescritura, que es usualmente donde estas arquitecturas de memoria académicas se atascan.

ReasoningBank de Google Research deja a los agentes aprender de sus propios fracasos, +8,3% en WebArena y +4,6% en SWE-Bench-Verified

Más noticias