Pesquisadores de NUS, MIT CSAIL, A*STAR e SMART lançaram MEMO (arXiv 2605.15156) — um framework modular que injeta novo conhecimento em aplicações servidas por LLM sem tocar nos parâmetros do modelo base nem rodar um índice de retrieval separado. O setup é um modelo MEMORY Qwen2.5-14B-Instruct treinado no novo corpus, falando com um EXECUTIVE congelado (Qwen2.5-32B-Instruct ou Gemini-3-Flash) via protocolo multi-turno estruturado. No NarrativeQA o lift sobre HippoRAG2 é 53,58% vs 23,21%; no MuSiQue e BrowseComp-Plus os deltas estão no nível de ruído.
A interface não é cross-attention ou adaptadores — é conversacional, três estágios: grounding (decompor query em sub-perguntas atômicas), identificação de entidades sobre 7 interações, síntese de resposta sobre 8 interações. O modelo MEMORY retorna snippets compactos em linguagem natural, tamanho independente do corpus. O treinamento é supervised fine-tuning sobre uma pipeline de síntese de cinco passos que gera pares pergunta-resposta; ablacionar a síntese cross-document derruba a accuracy de 24,00% para 6,37%, o que diz que o passo de síntese faz o trabalho, não apenas memorizar fatos. Sob injeção de ruído de retrieval, a accuracy do MEMO se move +0,55% enquanto HippoRAG2 cai 6,22% — o protocolo é robusto porque não há sistema de retrieval para corromper.
O tradeoff honesto para construtores é latência. Quinze-mais passes de inferência por query antes da síntese de resposta não é grátis. RAG com vector store custa uma chamada de retrieval mais uma geração; MEMO custa o diálogo multi-turno entre dois modelos. Os casos vencedores são onde você não pode fazer fine-tuning (custo, esquecimento catastrófico, modelo vendor congelado) e não pode tolerar ruído de retrieval (corpus legal, médico, domínio onde um snippet ruim envenena a resposta). A arquitetura também desacopla conhecimento de capacidade — troque o executivo sem retreinar a memória, ou troque a memória sem retreinar o executivo. Esse desacoplamento é a afirmação estrutural interessante, mais que o número de benchmark único.
Se você envia aplicações LLM de domínio segunda de manhã: MEMO vale uma leitura se você já paga por fragilidade RAG ou manutenção de fine-tuning. O custo de latência o limita a casos de alto-risco baixo-throughput por enquanto. Observe se o protocolo de 15 turnos pode ser comprimido — é aí que isso deixa de ser curiosidade de pesquisa e se torna opção de produção.
