NUS、MIT CSAIL、A*STAR和SMART的研究員發布了MEMO(arXiv 2605.15156)——一個模組化框架,在不觸及基礎模型參數也不執行單獨檢索索引的情況下,將新知識注入LLM服務的應用程式。設定是一個在新語料庫上訓練的Qwen2.5-14B-Instruct MEMORY模型,透過結構化多輪協議與凍結的EXECUTIVE(Qwen2.5-32B-Instruct或Gemini-3-Flash)對話。在NarrativeQA上對HippoRAG2的提升是53.58% vs 23.21%;在MuSiQue和BrowseComp-Plus上,delta處於雜訊水平。

介面不是cross-attention或adapter——它是對話式的,三個階段:grounding(將查詢分解為原子子問題)、跨越7次互動的實體識別、跨越8次互動的答案合成。MEMORY模型回傳緊湊的自然語言片段,大小獨立於語料庫。訓練是在生成問答對的五步合成pipeline上的supervised fine-tuning;消除cross-document synthesis將accuracy從24.00%降至6.37%,這表明合成步驟在做工作,而不僅僅是記憶事實。在retrieval雜訊注入下,MEMO accuracy變化+0.55%,而HippoRAG2下降6.22%——該協議是穩健的,因為沒有可被破壞的檢索系統。

對建構者的誠實權衡是延遲。每個查詢在答案合成之前要15+次推理pass,這不是免費的。帶向量儲存的RAG成本是一次retrieval呼叫加一次生成;MEMO的成本是兩個模型之間的多輪對話。勝出案例是你無法fine-tune(成本、災難性遺忘、凍結的vendor模型)和無法容忍retrieval雜訊(法律、醫療、領域語料庫,其中一個壞片段會毒害答案)。該架構還將知識與能力解耦——在不重訓記憶的情況下交換executive,或在不重訓executive的情況下交換記憶。這種解耦是有趣的結構性主張,比單一基準數字更重要。

如果你週一早上交付領域LLM應用:如果你已經在為RAG脆弱性或fine-tuning維護付費,MEMO值得一讀。延遲成本目前將其限制在高風險低吞吐量用例。關注15輪協議是否可以壓縮——那是這不再是研究奇物而成為生產選項的地方。