Des chercheurs du NUS, MIT CSAIL, A*STAR pis SMART ont sorti MEMO (arXiv 2605.15156) — un cadre modulaire qui injecte de nouvelles connaissances dans des applications servies par LLM sans toucher aux paramètres du modèle de base ni faire rouler un index de retrieval séparé. Le setup est un modèle MEMORY Qwen2.5-14B-Instruct entraîné sur le nouveau corpus, qui parle à un EXECUTIVE gelé (Qwen2.5-32B-Instruct ou Gemini-3-Flash) via un protocole multi-tours structuré. Sur NarrativeQA le lift sur HippoRAG2 est 53,58% vs 23,21% ; sur MuSiQue pis BrowseComp-Plus les écarts sont au niveau du bruit.

L'interface n'est pas de la cross-attention ou des adaptateurs — c'est conversationnel, trois étapes : grounding (décomposer la query en sous-questions atomiques), identification d'entités sur 7 interactions, synthèse de réponse sur 8 interactions. Le modèle MEMORY retourne des snippets compacts en langage naturel, taille indépendante du corpus. L'entraînement est supervised fine-tuning sur un pipeline de synthèse en cinq étapes qui génère des paires question-réponse ; ablater la synthèse cross-document fait chuter l'accuracy de 24,00% à 6,37%, ce qui dit que l'étape de synthèse fait la job, pas juste de la mémorisation. Sous injection de bruit de retrieval, l'accuracy de MEMO bouge de +0,55% pendant que HippoRAG2 chute de 6,22% — le protocole est robuste parce qu'il n'y a pas de système de retrieval à corrompre.

Le tradeoff honnête pour les bâtisseurs est la latence. Quinze-plus passes d'inférence par query avant la synthèse de réponse, c'est pas gratis. RAG avec un vector store coûte un appel de retrieval plus une génération ; MEMO coûte le dialogue multi-tours entre deux modèles. Les cas gagnants sont quand tu peux pas faire de fine-tuning (coût, oubli catastrophique, modèle vendeur gelé) pis tu peux pas tolérer le bruit de retrieval (corpus légal, médical, domaine où un mauvais snippet empoisonne la réponse). L'architecture découple aussi la connaissance de la capacité — swap l'exécutif sans réentraîner la mémoire, ou swap la mémoire sans réentraîner l'exécutif. Ce découplage, c'est la claim structurelle intéressante, plus que le chiffre du benchmark unique.

Si tu ships des applications LLM de domaine lundi matin : MEMO vaut une lecture si tu paies déjà pour la fragilité du RAG ou la maintenance du fine-tuning. Le coût de latence le limite à des cas haute-stake basse-throughput pour l'instant. Watch si le protocole 15 tours peut être compressé — c'est là que ça arrête d'être une curiosité de recherche pis devient une option de prod.