Anthropic entregó dos nuevas piezas a Claude Managed Agents en la conferencia Code with Claude 2026 la semana pasada: Multiagent Orchestration (agente líder + sub-agentes especialistas) y Outcomes (bucle de iteración calificado por rúbrica). Ambos están en beta pública ahora. Para quien esté construyendo flujos de trabajo de agentes más allá del patrón "un prompt, un agente, una tarea" — y muchos equipos han chocado con ese techo en investigaciones complejas o generación de contenido multi-paso — estas son las primitivas de orquestación que le faltaban a Anthropic versus donde LangChain, CrewAI y AutoGen llevan operando un año.

Multiagent Orchestration: un agente líder rompe tareas complejas en piezas y delega a sub-agentes especialistas, cada uno con su propio modelo, prompt y herramientas. Los sub-agentes trabajan en paralelo en un sistema de archivos compartido y contribuyen de vuelta al contexto del líder. Memoria de eventos persistente sobre toda la flota, con trazado completo en Claude Console mostrando qué agente hizo qué, cuándo y por qué. El ejemplo que Anthropic citó del cliente Spiral tiene la forma correcta: Haiku como agente líder para tría barata y enrutamiento de solicitudes, instancias Opus delegadas para redacción — la heterogeneidad de modelos es el punto, no enjambres mono-modelo. Outcomes agrega una instancia Claude separada como grader: tú escribes una rúbrica describiendo cómo se ve el éxito, el grader evalúa la salida en su propia ventana de contexto (aislada de la trayectoria de razonamiento del agente), y cuando el grader señala problemas el agente itera. Ganancias reportadas: hasta 10 puntos porcentuales en las tareas más difíciles vs un bucle de prompting estándar, con cifras específicas de +8,4% en generación docx y +10,1% en pptx. La arquitectura grader-en-contexto-separado es la nueva genuina — aísla la métrica de éxito del mismo modelo que produjo el trabajo, más cerca del territorio LLM-as-judge que de auto-crítica chain-of-thought.

Los patrones multi-agente han estado en el stack de agentes open-source por más de un año — LangGraph, CrewAI, AutoGen, AutoGen Studio de Microsoft — así que Anthropic llega tarde a entregar una versión gestionada. Pero "tarde e integrado" vence a "temprano y cóselo tú mismo" para muchos equipos: memoria de eventos persistente + trazado Console + sistema de archivos compartido + acceso first-party a modelos Claude quita el pegamento de orquestación que antes estaba en Python mantenido por el usuario o en la abstracción fugaz de alguien. Outcomes es la pieza arquitectónicamente más interesante porque cambia cómo se ve un bucle de evaluación dentro de flujos de agente en producción. Los bucles de prompting estándar hornean el grader en el mismo contexto que el agente, lo que significa que la propia trayectoria de razonamiento del agente dirige lo que se "califica como bueno" — y terminas con auto-consistencia vestida de control de calidad. Separar el grader en su propio contexto (misma familia de modelo, instancia distinta) te da LLM-as-judge dentro del runtime del agente, no como un eval offline. La afirmación de 10 puntos porcentuales es lo suficientemente específica para probarla contra tu propia carga antes de creerla, pero la arquitectura coincide con lo que funciona en la literatura de investigación.

Ambas funciones están en beta pública — sin lista de espera para Outcomes o Multiagent Orchestration. Dreaming (la función de curación de memoria separada también anunciada) aún requiere solicitud de acceso. Visible en Console desde el día 1, así que la herramienta operacional es real, no vaporware. Si estás corriendo agentes Claude y encuentras que "un gran prompt con uso de herramientas" choca con un techo en tareas complejas, Multiagent Orchestration es por donde empezar — el patrón Haiku-lidera-Opus de Spiral es una forma copiable. Si estás generando salida estructurada (docs, presentaciones, código) donde la calidad importa más que el throughput, Outcomes es donde viven los puntos porcentuales. El precio no se divulgó en el anuncio, así que el cálculo coste-por-tarea vs un bucle de agente único es lo siguiente a entender antes de producción. Vale un A/B contra tu flujo actual antes de comprometerte.