NUS, MIT CSAIL, A*STAR, और SMART के शोधकर्ताओं ने MEMO (arXiv 2605.15156) जारी किया — एक मॉड्यूलर फ्रेमवर्क जो बेस मॉडल पैरामीटर्स को छुए बिना या अलग retrieval index चलाए बिना LLM-सर्व्ड एप्लिकेशन्स में नया ज्ञान इंजेक्ट करता है। सेटअप एक Qwen2.5-14B-Instruct MEMORY मॉडल है जो नए corpus पर प्रशिक्षित है, संरचित multi-turn प्रोटोकॉल के माध्यम से एक फ्रोज़न EXECUTIVE (Qwen2.5-32B-Instruct या Gemini-3-Flash) से बात कर रहा है। NarrativeQA पर HippoRAG2 पर lift 53.58% vs 23.21% है; MuSiQue और BrowseComp-Plus पर delta शोर-स्तर पर हैं।
इंटरफ़ेस cross-attention या adapters नहीं है — यह संवादात्मक है, तीन चरण: grounding (क्वेरी को परमाणु उप-प्रश्नों में विघटित करें), 7 इंटरैक्शन में entity पहचान, 8 इंटरैक्शन में उत्तर संश्लेषण। MEMORY मॉडल कॉम्पैक्ट प्राकृतिक भाषा snippets लौटाता है, आकार corpus से स्वतंत्र। प्रशिक्षण पाँच-चरण संश्लेषण पाइपलाइन पर supervised fine-tuning है जो प्रश्न-उत्तर जोड़े उत्पन्न करता है; cross-document synthesis को निकालने से accuracy 24.00% से 6.37% तक गिर जाती है, जो कहता है कि synthesis चरण काम कर रहा है, केवल तथ्यों को याद नहीं कर रहा। retrieval-शोर इंजेक्शन के तहत, MEMO accuracy +0.55% चलती है जबकि HippoRAG2 6.22% गिरती है — प्रोटोकॉल मजबूत है क्योंकि भ्रष्ट करने के लिए कोई retrieval सिस्टम नहीं है।
बिल्डर्स के लिए ईमानदार तरीका विलंबता है। उत्तर संश्लेषण से पहले प्रति क्वेरी पंद्रह-प्लस इन्फरेंस पास मुफ्त नहीं है। vector store के साथ RAG की लागत एक retrieval कॉल प्लस एक जनरेशन है; MEMO की लागत दो मॉडलों के बीच multi-turn संवाद है। जीतने वाले मामले वे हैं जहाँ आप fine-tune नहीं कर सकते (लागत, विनाशकारी विस्मरण, फ्रोज़न vendor मॉडल) और retrieval शोर सहन नहीं कर सकते (कानूनी, चिकित्सा, डोमेन कॉर्पोरा जहाँ एक खराब snippet उत्तर को विषाक्त करता है)। आर्किटेक्चर ज्ञान को क्षमता से भी अलग करता है — मेमोरी को पुनः प्रशिक्षित किए बिना executive को स्वैप करें, या executive को पुनः प्रशिक्षित किए बिना मेमोरी को स्वैप करें। यह decoupling एकल बेंचमार्क संख्या से अधिक दिलचस्प संरचनात्मक दावा है।
यदि आप सोमवार सुबह डोमेन-LLM एप्लिकेशन भेजते हैं: यदि आप पहले से ही RAG कमज़ोरी या fine-tuning रखरखाव के लिए भुगतान कर रहे हैं तो MEMO एक पढ़ने के लायक है। विलंबता लागत इसे अभी के लिए उच्च-दांव-कम-थ्रूपुट उपयोग के मामलों तक सीमित करती है। देखें कि क्या 15-टर्न प्रोटोकॉल को संकुचित किया जा सकता है — वहीं यह शोध जिज्ञासा होना बंद हो जाता है और उत्पादन विकल्प बन जाता है।
