Recursive Language Models (RLM), enviado en diciembre 2025 y revisado por última vez el 11 de mayo, propone manejar prompts hasta dos órdenes de magnitud más allá del context window nativo del modelo dándole al LLM un REPL de Python que puede llamar recursivamente. Alex L. Zhang, Tim Kraska (MIT) y Omar Khattab (Stanford, también DSPy y ColBERT) reportan una mejora del 26% sobre métodos de compactación en GPT-5, 130% sobre CodeAct con sub-llamadas, y 13% sobre Claude Code en cuatro tareas long-context a costo comparable. El variante fine-tuneado RLM-Qwen3-8B gana 28,3% sobre Qwen3-8B baseline y se acerca al GPT-5 vanilla en tres de esas tareas. arXiv 2512.24601.
El mecanismo: el LLM padre corre en un REPL Python donde el contexto del usuario está vinculado a una variable `context`, y una función `llm_query()` instancia hijos RLM con sus propios REPLs frescos. La elección arquitectónica que hace funcionar todo es que las respuestas de los hijos se devuelven como variables Python, no como texto volcado en el context window del padre. El padre compone respuestas finales desde referencias de variable — "el diccionario que pedí al sub-call A construir", "la lista de países que pedí al sub-call B" — sin pagar el costo de tokens de reinlinear sus outputs. Esa es la diferencia estructural con los subagents de Claude Code de Anthropic y con CodeAct, ambos devuelven texto al contexto en ejecución del padre.
Mapeado a la taxonomía existente de arquitecturas de agentes: ReAct (single agent más tool loop), CodeAct (agente llama funciones Python definidas por el usuario), Self-Loops (agente se re-promptea con historia resumida), y Subagents (lead agent delega a sub-agents especialistas vía texto). RLM es el más cercano a Subagents pero con semántica de retorno simbólico en vez de textual. El claim económico — costo comparable mientras vence a los cuatro — viene de no inflar el contexto padre con outputs hijos que el padre solo necesita por referencia. Dos preguntas que el paper plantea sin resolver del todo para producción: cómo depurar cuando la mitad de tu razonamiento vive detrás de referencias de variable opacas, y cómo cachear cómputos hijos entre runs.
Lunes: si operas un sistema de agentes que choca con context limits porque los outputs de subagents o tools se comen el presupuesto, el patrón de retorno simbólico es implementable hoy incluso sin adoptar el framework RLM completo — envuelve tus llamadas a subagent para que el padre reciba un handle a dónde vive el output, no el output mismo. El resultado de Qwen3-8B (lift de 28,3% sobre el mismo modelo) sugiere que esta técnica se compone con cualquier modelo que estés corriendo, no solo frontier. Vigila a Anthropic, OpenAI o Google adoptando semántica de retorno simbólico en sus productos subagent first-party en los próximos dos trimestres.
