ReasoningBank do Google Research deixa agentes aprenderem dos próprios fracassos, +8,3% no WebArena e +4,6% no SWE-Bench-Verified

O Google Research enviou o ReasoningBank hoje com um paper e um repo open source. A premissa é direta e útil: abordagens existentes de memória de agente ou logam trajetórias de ações exaustivas (estilo Synapse) que falham em destilar padrões transferíveis, ou salvam só workflows bem-sucedidos (estilo AWM) que ignoram uma fonte primária de aprendizado, os próprios fracassos do agente. ReasoningBank argumenta que você quer ambos, estruturados.

A arquitetura é enxuta. Cada entrada de memória tem três campos: um título (identificador conciso de estratégia), uma descrição (resumo breve), e conteúdo (passos de raciocínio destilados, racionais de decisão, ou insights operacionais). Em tempo de inferência, o agente recupera memórias relevantes antes de agir, interage com o ambiente, depois usa um LLM-como-juiz para auto-avaliar o resultado e extrair novas memórias. Sem fine-tuning, tudo em tempo de execução. Os autores notam que o auto-julgamento não precisa ser perfeitamente preciso; o sistema é robusto a ruído de julgamento. As memórias evoluem ao longo de execuções: entradas iniciais parecem checklists procedurais ("Procurar links de página"), entradas mais tardias amadurecem em lógica preventiva ("Cruzar tarefas continuamente com filtros de página ativos para garantir que datasets recuperados não estejam paginados prematuramente").

Os números são honestos. No Gemini-2.5-Flash, ReasoningBank eleva sucesso WebArena em 8,3 pontos e SWE-Bench-Verified em 4,6 pontos acima de uma baseline sem memória, e economiza aproximadamente 3 passos de execução por tarefa no SWE-Bench-Verified. Com MaTTS (scaling paralelo em k=5), +3% adicional no WebArena e 0,4 passos a menos. Baselines comparadas incluem ReAct vanilla, Synapse (memória de trajetória), e AWM (memória de workflow). Esses são ganhos de um dígito sobre agentes já capazes em vez de saltos que mudam o framework, mas vêm de uma camada de memória que não custa nada exceto as chamadas LLM de recuperação e juiz, sem treinamento necessário.

Duas notas práticas se você está construindo agentes. Um, o insight de aprendizado por fracasso é a parte limpa. Se seu sistema de memória de agente só armazena trajetórias bem-sucedidas (que é o default para a maioria das implementações de memória de workflow em circulação), você está deixando uma fração significativa dos seus ganhos potenciais na mesa. Os 4,6 pontos no SWE-Bench-Verified não vêm de melhores ações; vêm de armazenar o que deu errado na última vez em uma forma que o agente pode recuperar na próxima vez. Dois, o código está em github.com/google-research/reasoning-bank e o paper está em arxiv 2509.25140. O schema de entrada de três campos é simples o suficiente para retrofittar em loops de agente existentes sem uma reescrita, que é geralmente onde essas arquiteturas de memória acadêmicas empacam.

ReasoningBank do Google Research deixa agentes aprenderem dos próprios fracassos, +8,3% no WebArena e +4,6% no SWE-Bench-Verified

Mais notícias