Recursive Language Models (RLM), submetido em dezembro 2025 e revisado pela última vez em 11 de maio, propõe lidar com prompts até duas ordens de magnitude além do context window nativo do modelo dando ao LLM um REPL Python que ele pode chamar recursivamente. Alex L. Zhang, Tim Kraska (MIT) e Omar Khattab (Stanford, também DSPy e ColBERT) reportam melhora de 26% sobre métodos de compactação no GPT-5, 130% sobre CodeAct com sub-chamadas, e 13% sobre Claude Code em quatro tarefas long-context a custo comparável. A variante fine-tunada RLM-Qwen3-8B ganha 28,3% sobre Qwen3-8B baseline e se aproxima do GPT-5 vanilla em três dessas tarefas. arXiv 2512.24601.
O mecanismo: o LLM pai roda num REPL Python onde o contexto do usuário é vinculado a uma variável `context`, e uma função `llm_query()` instancia filhos RLM com seus próprios REPLs frescos. A escolha arquitetural que faz tudo funcionar é que as respostas dos filhos são devolvidas como variáveis Python, não como texto despejado de volta no context window do pai. O pai compõe respostas finais a partir de referências de variável — "o dicionário que pedi ao sub-call A construir", "a lista de países que pedi ao sub-call B" — sem pagar o custo de tokens de reinlinear seus outputs. Essa é a diferença estrutural em relação aos subagents do Claude Code da Anthropic e ao CodeAct, ambos devolvem texto ao contexto em execução do pai.
Mapeado à taxonomia existente de arquiteturas de agentes: ReAct (single agent mais tool loop), CodeAct (agente chama funções Python definidas pelo usuário), Self-Loops (agente se re-prompta com histórico resumido), e Subagents (lead agent delega a sub-agents especialistas via texto). RLM é o mais próximo de Subagents mas com semântica de retorno simbólico em vez de textual. O claim econômico — custo comparável enquanto vence os quatro — vem de não inflar o contexto pai com outputs filhos que o pai só precisa por referência. Duas perguntas que o paper levanta sem resolver totalmente para produção: como depurar quando metade do seu raciocínio vive atrás de referências de variável opacas, e como cachear computações filhas entre runs.
Segunda-feira: se você opera um sistema de agentes que esbarra em context limits porque outputs de subagents ou tools comem o orçamento, o padrão de retorno simbólico é implementável hoje mesmo sem adotar o framework RLM completo — embrulhe suas chamadas de subagent para que o pai receba um handle para onde o output vive, não o output em si. O resultado de Qwen3-8B (lift de 28,3% sobre o mesmo modelo) sugere que essa técnica se compõe com qualquer modelo que você esteja rodando, não só frontier. Fique de olho na Anthropic, OpenAI ou Google adotando semântica de retorno simbólico em seus produtos subagent first-party nos próximos dois trimestres.
