Recursive Language Models (RLM), soumis en décembre 2025 et révisé pour la dernière fois le 11 mai, propose de traiter des prompts jusqu'à deux ordres de grandeur au-delà du context window natif du modèle en donnant au LLM un REPL Python qu'il peut appeler récursivement. Alex L. Zhang, Tim Kraska (MIT) et Omar Khattab (Stanford, aussi DSPy et ColBERT) rapportent une amélioration de 26% sur les méthodes de compaction avec GPT-5, 130% sur CodeAct avec sub-calls, et 13% sur Claude Code sur quatre tâches long-context à coût comparable. Le variant fine-tuné RLM-Qwen3-8B gagne 28,3% sur Qwen3-8B baseline et approche vanilla GPT-5 sur trois de ces tâches. arXiv 2512.24601.
Le mécanisme : le LLM parent roule dans un REPL Python où le contexte utilisateur est lié à une variable `context`, et une fonction `llm_query()` spawn des instances RLM enfants avec leurs propres REPLs frais. Le choix architectural qui fait marcher tout le truc, c'est que les réponses des enfants sont retournées comme variables Python, pas comme texte dumpé dans le context window du parent. Le parent compose les réponses finales à partir de références de variables — « le dictionnaire que j'ai demandé au sub-call A de bâtir », « la liste de pays que j'ai demandée au sub-call B » — sans payer le token cost de réinliner leurs outputs. C'est la différence structurelle d'avec les subagents de Claude Code d'Anthropic et d'avec CodeAct, qui tous les deux retournent du texte dans le contexte qui roule du parent.
Mappé sur la taxonomie existante d'architectures d'agents : ReAct (single agent plus tool loop), CodeAct (agent appelle des fonctions Python user-defined), Self-Loops (agent se re-prompt avec un historique résumé), et Subagents (lead agent délègue à des sub-agents spécialistes via du texte). RLM est le plus proche des Subagents mais avec sémantique de retour symbolique plutôt que textuelle. La claim économique — coût comparable tout en battant les quatre — vient du fait de pas exploser le contexte parent avec des outputs enfants dont le parent a juste besoin par référence. Deux questions que le papier soulève sans les régler pour la prod : comment debug quand la moitié de ton raisonnement vit derrière des variable references opaques, et comment cacher les computations enfants entre runs.
Lundi matin : si t'opères un système d'agents qui hit les context limits parce que les outputs de subagents ou de tools mangent le budget, le pattern de retour symbolique est implémentable aujourd'hui même sans adopter le framework RLM complet — wrap tes appels de subagent pour que le parent reçoive un handle vers où l'output vit, pas l'output lui-même. Le résultat Qwen3-8B (lift de 28,3% sur le même modèle) suggère que cette technique se compose avec n'importe quel modèle que tu roules, pas juste frontier. Watch pour Anthropic, OpenAI ou Google adoptant la sémantique de retour symbolique dans leurs produits subagent first-party sur les deux prochains trimestres.
