Google Research 的 ReasoningBank 讓 agent 從自己的失敗中學習，WebArena +8.3%，SWE-Bench-Verified +4.6%

Google Research 今日發布了 ReasoningBank，帶論文和開源程式碼庫。前提直接且有用：現有的 agent 記憶方法要麼把動作軌跡詳盡記錄（Synapse 風格）但無法蒸餾出可遷移的模式，要麼只保存成功的工作流（AWM 風格）從而忽視了學習的一大來源——agent 自己的失敗。ReasoningBank 主張兩者都要，且要結構化。

架構精簡。每條記憶有三個欄位：標題（簡要策略識別）、描述（簡短摘要）、內容（蒸餾後的推理步驟、決策依據或操作性見解）。推理時 agent 在行動前檢索相關記憶，與環境互動，然後用 LLM-as-a-judge 自評結果並抽取新記憶。不做微調，全部在執行階段。作者指出：自評不必完美準確；系統對評判雜訊具有強健性。記憶會跨執行演化：早期條目像程式性清單（「查找頁面連結」），後期條目發展為預防性邏輯（「持續交叉比對任務與目前頁面過濾器，確保取出的資料集未被過早分頁」）。

數字是誠實的。在 Gemini-2.5-Flash 上，ReasoningBank 在 WebArena 上把成功率提升 8.3 個百分點，在 SWE-Bench-Verified 上提升 4.6 個百分點，均相對無記憶基線，並在 SWE-Bench-Verified 上每任務節省約 3 步執行。啟用 MaTTS（平行擴展，k=5）後，WebArena 再多 3 %，減少 0.4 步。對比基線包括原始 ReAct、Synapse（軌跡記憶）和 AWM（工作流記憶）。這些是在已很能幹的 agent 基礎上的一位數增益，而不是改變框架的飛躍——但它們來自一層幾乎零成本的記憶（只有檢索與裁判 LLM 呼叫），無需訓練。

如果你在搭 agent，有兩點實用提示。其一，從失敗中學習這一洞見是最乾淨的部分。如果你的 agent 記憶系統只存成功軌跡（這是絕大多數流傳實現的預設），你就把潛在收益裡相當一部分留在桌上了。SWE-Bench-Verified 上的 4.6 個百分點並不來自更好的動作，而是來自把上次出錯的東西以 agent 下次能檢索到的形式保存起來。其二，程式碼在 github.com/google-research/reasoning-bank，論文在 arxiv 2509.25140。三欄位條目結構足夠簡單，能在現有 agent 迴路裡不做重寫就改裝進去——學術記憶架構通常就卡在這一步。

Google Research 的 ReasoningBank 讓 agent 從自己的失敗中學習，WebArena +8.3%，SWE-Bench-Verified +4.6%

更多新聞