Anthropic ने पिछले हफ्ते के Code with Claude 2026 conference में Claude Managed Agents में दो नए parts ship किए: Multiagent Orchestration (lead agent + specialist sub-agents) और Outcomes (rubric-graded iteration loop)। दोनों अब public beta में हैं। "एक prompt, एक agent, एक task" pattern से आगे agent workflows बनाने वालों के लिए — और बहुत सी teams complex investigations या multi-step content generation पर इस ceiling से टकराई हैं — ये वो orchestration primitives हैं जो Anthropic के पास नहीं थे,जबकि LangChain, CrewAI, और AutoGen एक साल से operate कर रहे हैं।
Multiagent Orchestration: एक lead agent complex tasks को pieces में तोड़ता है और specialist sub-agents को delegate करता है, हर एक का अपना model, prompt और tools होते हैं। Sub-agents एक shared filesystem पर parallel में काम करते हैं और lead के context में वापस contribute करते हैं। पूरे fleet पर persistent event memory, Claude Console में full tracing दिखाता है किस agent ने क्या किया, कब, और क्यों। Anthropic ने customer Spiral का जो example cite किया वह सही shape है: Haiku lead agent के रूप में सस्ती triage और request routing के लिए, Opus instances drafting के लिए delegated — model heterogeneity point है, single-model swarms नहीं। Outcomes एक अलग Claude instance को grader के रूप में जोड़ता है: आप एक rubric लिखते हैं कि success कैसा दिखता है, grader output को अपने context window में evaluate करता है (agent के reasoning trajectory से isolated), और जब grader issues बताता है agent iterate करता है। Reported gains: सबसे कठिन tasks पर standard prompting loop से 10 percentage points तक, docx generation पर +8.4% और pptx पर +10.1% specific numbers। Grader-in-separate-context architecture genuine नई बात है — यह success metric को उसी model से isolate करती है जिसने काम produce किया, chain-of-thought self-critique के बजाय LLM-as-judge territory के करीब।
Multi-agent patterns एक साल से ज्यादा से open-source agent stack में हैं — LangGraph, CrewAI, AutoGen, Microsoft का AutoGen Studio — तो Anthropic managed version ship करने में देर से आ रहा है। लेकिन "देर से और integrated" "जल्दी और खुद सिलें" को बहुत सी teams के लिए हराता है: persistent event memory + Console tracing + shared filesystem + Claude models तक first-party access उस orchestration glue को हटाता है जो पहले user-maintained Python या किसी की leaky abstraction में था। Outcomes architecturally ज्यादा interesting part है क्योंकि यह बदलता है कि production agent workflows के अंदर evaluation loop कैसा दिखता है। Standard prompting loops grader को agent के same context में bake करते हैं, मतलब agent की अपनी reasoning trajectory direct करती है क्या "good के रूप में graded" होगा — और आप quality control के रूप में dressed-up self-consistency के साथ end करते हैं। Grader को अपने context (same model family, different instance) में अलग करना आपको agent के runtime के अंदर LLM-as-judge देता है, offline eval के रूप में नहीं। 10 percentage point gain claim इतना specific है कि believe करने से पहले अपने workload के विरुद्ध test किया जा सके, लेकिन architecture research literature में जो काम करता है उससे match करती है।
दोनों features public beta में हैं — Outcomes या Multiagent Orchestration के लिए कोई waitlist नहीं। Dreaming (अलग announced memory-curation feature) अभी भी request access चाहिए। Day 1 से Console-visible, तो operational tooling असली है, vaporware नहीं। अगर आप Claude agents चला रहे हैं और पाते हैं कि "tool use के साथ एक बड़ा prompt" complex tasks पर ceiling से टकराता है, Multiagent Orchestration जहाँ start करना है — Spiral का Haiku-leads-Opus pattern एक copyable shape है। अगर आप structured output (docs, presentations, code) generate कर रहे हैं जहाँ quality throughput से ज्यादा matter करती है, Outcomes जहाँ percentage points रहते हैं। Announcement में pricing disclose नहीं हुआ, तो single-agent loop के against cost-per-task math production में जाने से पहले अगली समझने वाली चीज है। Commit करने से पहले अपने current workflow के against A/B चलाना worth है।
