Recursive Language Models (RLM), दिसंबर 2025 में submitted और 11 मई को last revised, propose करता है कि LLM को एक Python REPL दिया जाए जिसे वह recursively call कर सके, ताकि वह model के native context window से दो orders of magnitude तक बड़े prompts handle कर सके। Alex L. Zhang, Tim Kraska (MIT), और Omar Khattab (Stanford, DSPy और ColBERT के भी author) report करते हैं: GPT-5 पर compaction methods से 26% improvement, sub-calls वाले CodeAct से 130%, Claude Code से 13% — चार long-context tasks पर comparable cost पर। Fine-tuned RLM-Qwen3-8B variant baseline Qwen3-8B पर 28.3% gain करता है और इनमें से तीन tasks पर vanilla GPT-5 के पास पहुँचता है। arXiv 2512.24601।

Mechanism: parent LLM एक Python REPL में चलता है जहाँ user context एक `context` variable से bound है, और `llm_query()` function child RLM instances spawn करता है जिनके अपने fresh REPLs होते हैं। पूरा system चलाने वाला architectural choice यह है कि children के responses Python variables के रूप में return होते हैं, parent के context window में text dump नहीं किए जाते। Parent variable references से final answers compose करता है — "मैंने sub-call A से जो dictionary बनवाई", "मैंने sub-call B से जो countries list मांगी" — उनके outputs को re-inline करने का token cost चुकाए बिना। यही structural difference है Anthropic के Claude Code subagents और CodeAct से, दोनों ही parent के running context में text return करते हैं।

मौजूदा agent-architecture taxonomy पर map करें: ReAct (single agent plus tool loop), CodeAct (agent user-defined Python functions call करता है), Self-Loops (agent खुद को summarized history के साथ re-prompt करता है), और Subagents (lead agent specialist sub-agents को text के through delegate करता है)। RLM Subagents के सबसे करीब है लेकिन symbolic-return semantics के साथ, text-return नहीं। Economic claim — चारों को beat करते हुए comparable cost — इस fact से आता है कि parent के context को children के outputs से नहीं भरा जाता जब parent को सिर्फ reference से चाहिए। Paper दो सवाल उठाता है जो production के लिए पूरी तरह settle नहीं हैं: जब आधी reasoning opaque variable references के पीछे रहती है तो debug कैसे करें, और children के computations को runs के across cache कैसे करें।

सोमवार: अगर आप एक ऐसा agent system चलाते हैं जो context limits से टकराता है क्योंकि subagent या tool outputs budget खा रहे हैं, symbolic-return pattern आज भी implementable है, पूरा RLM framework adopt किए बिना — अपनी subagent calls को wrap करो ताकि parent को output कहाँ रहता है उसका handle मिले, output खुद नहीं। Qwen3-8B का result (उसी model पर 28.3% lift) suggest करता है कि यह technique आप जो भी model चला रहे हो उसके साथ compound होती है, सिर्फ frontier नहीं। देखो अगले दो quarters में Anthropic, OpenAI, या Google अपने first-party subagent products में symbolic-return semantics adopt करते हैं या नहीं।