NUS、MIT CSAIL、A*STAR和SMART的研究员发布了MEMO(arXiv 2605.15156)——一个模块化框架,在不触及基础模型参数也不运行单独检索索引的情况下,将新知识注入LLM服务的应用程序。设置是一个在新语料库上训练的Qwen2.5-14B-Instruct MEMORY模型,通过结构化多轮协议与冻结的EXECUTIVE(Qwen2.5-32B-Instruct或Gemini-3-Flash)对话。在NarrativeQA上对HippoRAG2的提升是53.58% vs 23.21%;在MuSiQue和BrowseComp-Plus上,delta处于噪声水平。

接口不是cross-attention或adapter——它是对话式的,三个阶段:grounding(将查询分解为原子子问题)、跨越7次交互的实体识别、跨越8次交互的答案合成。MEMORY模型返回紧凑的自然语言片段,大小独立于语料库。训练是在生成问答对的五步合成pipeline上的supervised fine-tuning;消除cross-document synthesis将accuracy从24.00%降至6.37%,这表明合成步骤在做工作,而不仅仅是记忆事实。在retrieval噪声注入下,MEMO accuracy变化+0.55%,而HippoRAG2下降6.22%——该协议是鲁棒的,因为没有可被破坏的检索系统。

对构建者的诚实权衡是延迟。每个查询在答案合成之前要15+次推理pass,这不是免费的。带向量存储的RAG成本是一次retrieval调用加一次生成;MEMO的成本是两个模型之间的多轮对话。胜出案例是你无法fine-tune(成本、灾难性遗忘、冻结的vendor模型)和无法容忍retrieval噪声(法律、医疗、领域语料库,其中一个坏片段会毒害答案)。该架构还将知识与能力解耦——在不重训记忆的情况下交换executive,或在不重训executive的情况下交换记忆。这种解耦是有趣的结构性主张,比单一基准数字更重要。

如果你周一早上交付领域LLM应用:如果你已经在为RAG脆弱性或fine-tuning维护付费,MEMO值得一读。延迟成本目前将其限制在高风险低吞吐量用例。关注15轮协议是否可以压缩——那是这不再是研究奇物而成为生产选项的地方。