Google Research 今日發布了 ReasoningBank,帶論文和開源程式碼庫。前提直接且有用:現有的 agent 記憶方法要麼把動作軌跡詳盡記錄(Synapse 風格)但無法蒸餾出可遷移的模式,要麼只保存成功的工作流(AWM 風格)從而忽視了學習的一大來源——agent 自己的失敗。ReasoningBank 主張兩者都要,且要結構化。

架構精簡。每條記憶有三個欄位:標題(簡要策略識別)、描述(簡短摘要)、內容(蒸餾後的推理步驟、決策依據或操作性見解)。推理時 agent 在行動前檢索相關記憶,與環境互動,然後用 LLM-as-a-judge 自評結果並抽取新記憶。不做微調,全部在執行階段。作者指出:自評不必完美準確;系統對評判雜訊具有強健性。記憶會跨執行演化:早期條目像程式性清單(「查找頁面連結」),後期條目發展為預防性邏輯(「持續交叉比對任務與目前頁面過濾器,確保取出的資料集未被過早分頁」)。

數字是誠實的。在 Gemini-2.5-Flash 上,ReasoningBank 在 WebArena 上把成功率提升 8.3 個百分點,在 SWE-Bench-Verified 上提升 4.6 個百分點,均相對無記憶基線,並在 SWE-Bench-Verified 上每任務節省約 3 步執行。啟用 MaTTS(平行擴展,k=5)後,WebArena 再多 3 %,減少 0.4 步。對比基線包括原始 ReAct、Synapse(軌跡記憶)和 AWM(工作流記憶)。這些是在已很能幹的 agent 基礎上的一位數增益,而不是改變框架的飛躍——但它們來自一層幾乎零成本的記憶(只有檢索與裁判 LLM 呼叫),無需訓練。

如果你在搭 agent,有兩點實用提示。其一,從失敗中學習這一洞見是最乾淨的部分。如果你的 agent 記憶系統只存成功軌跡(這是絕大多數流傳實現的預設),你就把潛在收益裡相當一部分留在桌上了。SWE-Bench-Verified 上的 4.6 個百分點並不來自更好的動作,而是來自把上次出錯的東西以 agent 下次能檢索到的形式保存起來。其二,程式碼在 github.com/google-research/reasoning-bank,論文在 arxiv 2509.25140。三欄位條目結構足夠簡單,能在現有 agent 迴路裡不做重寫就改裝進去——學術記憶架構通常就卡在這一步。