A Anthropic entregou duas novas peças ao Claude Managed Agents na conferência Code with Claude 2026 da semana passada: Multiagent Orchestration (agente líder + sub-agentes especialistas) e Outcomes (loop de iteração avaliado por rubrica). Ambos estão em beta pública agora. Para quem está construindo workflows de agente além do padrão "um prompt, um agente, uma tarefa" — e muitas equipes têm batido nesse teto em investigações complexas ou geração de conteúdo multi-passo — essas são as primitivas de orquestração que faltavam à Anthropic em comparação com onde LangChain, CrewAI e AutoGen operam há um ano.
Multiagent Orchestration: um agente líder quebra tarefas complexas em peças e delega a sub-agentes especialistas, cada um com seu próprio modelo, prompt e ferramentas. Sub-agentes trabalham em paralelo em um sistema de arquivos compartilhado e contribuem de volta ao contexto do líder. Memória de eventos persistente sobre toda a frota, com rastreamento completo no Claude Console mostrando qual agente fez o quê, quando e por quê. O exemplo que a Anthropic citou do cliente Spiral tem a forma certa: Haiku como agente líder para triagem barata e roteamento de requisições, instâncias Opus delegadas para redação — heterogeneidade de modelos é o ponto, não enxames mono-modelo. Outcomes adiciona uma instância Claude separada como grader: você escreve uma rubrica descrevendo como o sucesso parece, o grader avalia a saída em sua própria janela de contexto (isolada da trajetória de raciocínio do agente), e quando o grader aponta problemas o agente itera. Ganhos relatados: até 10 pontos percentuais nas tarefas mais difíceis vs um loop de prompting padrão, com números específicos de +8,4% em geração docx e +10,1% em pptx. A arquitetura grader-em-contexto-separado é a verdadeira novidade — isola a métrica de sucesso do mesmo modelo que produziu o trabalho, mais próxima do território LLM-as-judge do que de auto-crítica chain-of-thought.
Padrões multi-agente estão no stack de agente open-source há mais de um ano — LangGraph, CrewAI, AutoGen, AutoGen Studio da Microsoft — então a Anthropic chega atrasada para entregar uma versão gerenciada. Mas "atrasado e integrado" vence "cedo e costure você mesmo" para muitas equipes: memória de eventos persistente + rastreamento Console + sistema de arquivos compartilhado + acesso first-party a modelos Claude remove a cola de orquestração que antes ficava em Python mantido pelo usuário ou na abstração vazada de alguém. Outcomes é a peça arquitetonicamente mais interessante porque muda como um loop de avaliação parece dentro de workflows de agente em produção. Loops de prompting padrão assam o grader no mesmo contexto que o agente, o que significa que a própria trajetória de raciocínio do agente direciona o que é "avaliado como bom" — e você termina com auto-consistência vestida de controle de qualidade. Separar o grader em seu próprio contexto (mesma família de modelo, instância diferente) te dá LLM-as-judge dentro do runtime do agente, não como eval offline. A afirmação de 10 pontos percentuais é específica o suficiente para testar contra sua própria carga antes de acreditar, mas a arquitetura corresponde ao que funciona na literatura de pesquisa.
Ambas as funcionalidades estão em beta pública — sem lista de espera para Outcomes ou Multiagent Orchestration. Dreaming (a funcionalidade separada de curadoria de memória também anunciada) ainda requer solicitação de acesso. Visível no Console desde o dia 1, então o ferramental operacional é real, não vaporware. Se você está rodando agentes Claude e encontra que "um grande prompt com uso de ferramentas" bate num teto em tarefas complexas, Multiagent Orchestration é por onde começar — o padrão Haiku-lidera-Opus do Spiral é uma forma copiável. Se você está gerando saída estruturada (docs, apresentações, código) onde qualidade importa mais que throughput, Outcomes é onde os pontos percentuais vivem. O preço não foi divulgado no anúncio, então o cálculo custo-por-tarefa vs um loop de agente único é a próxima coisa a entender antes da produção. Vale um A/B contra seu workflow atual antes de comprometer.
