Investigadores de NUS, MIT CSAIL, A*STAR y SMART lanzaron MEMO (arXiv 2605.15156) — un marco modular que inyecta nuevo conocimiento en aplicaciones servidas por LLM sin tocar los parámetros del modelo base ni correr un índice de retrieval separado. El setup es un modelo MEMORY Qwen2.5-14B-Instruct entrenado sobre el nuevo corpus, hablando con un EXECUTIVE congelado (Qwen2.5-32B-Instruct o Gemini-3-Flash) vía protocolo multi-turno estructurado. En NarrativeQA el lift sobre HippoRAG2 es 53.58% vs 23.21%; en MuSiQue y BrowseComp-Plus los deltas son a nivel de ruido.

La interfaz no es cross-attention o adaptadores — es conversacional, tres etapas: grounding (descomponer query en sub-preguntas atómicas), identificación de entidades sobre 7 interacciones, síntesis de respuesta sobre 8 interacciones. El modelo MEMORY retorna snippets compactos en lenguaje natural, tamaño independiente del corpus. El entrenamiento es supervised fine-tuning sobre una pipeline de síntesis de cinco pasos que genera pares pregunta-respuesta; ablacionar la síntesis cross-document baja la accuracy de 24.00% a 6.37%, lo que dice que el paso de síntesis hace el trabajo, no solo memorizar hechos. Bajo inyección de ruido de retrieval, la accuracy de MEMO se mueve +0.55% mientras HippoRAG2 baja 6.22% — el protocolo es robusto porque no hay sistema de retrieval que corromper.

El tradeoff honesto para constructores es latencia. Quince-más pases de inferencia por query antes de la síntesis de respuesta no es gratis. RAG con un vector store cuesta una llamada de retrieval más una generación; MEMO cuesta el diálogo multi-turno entre dos modelos. Los casos ganadores son donde no puedes hacer fine-tuning (costo, olvido catastrófico, modelo vendor congelado) y no puedes tolerar ruido de retrieval (corpus legal, médico, dominio donde un mal snippet envenena la respuesta). La arquitectura también desacopla conocimiento de capacidad — intercambia el ejecutivo sin reentrenar la memoria, o intercambia la memoria sin reentrenar el ejecutivo. Ese desacoplamiento es la afirmación estructural interesante, más que el número de benchmark único.

Si envías aplicaciones LLM de dominio el lunes por la mañana: MEMO vale una lectura si ya estás pagando por fragilidad RAG o mantenimiento de fine-tuning. El costo de latencia lo limita a casos de alto-riesgo bajo-throughput por ahora. Vigila si el protocolo de 15 turnos puede comprimirse — ahí es donde esto deja de ser curiosidad de investigación y se vuelve opción de producción.