Anthropic a livré deux nouvelles pièces à Claude Managed Agents lors de la conférence Code with Claude 2026 la semaine dernière : Multiagent Orchestration (agent lead + sous-agents spécialistes) et Outcomes (boucle d'itération notée par rubrique). Les deux sont en bêta publique maintenant. Pour quiconque construit des workflows agents au-delà du pattern « un prompt, un agent, une tâche » — et beaucoup d'équipes ont buté sur ce plafond pour les investigations complexes ou la génération de contenu multi-étapes — ce sont les primitives d'orchestration qui manquaient à Anthropic par rapport à là où LangChain, CrewAI, et AutoGen opèrent depuis un an.

Multiagent Orchestration : un agent lead casse les tâches complexes en pièces et délègue à des sous-agents spécialistes, chacun avec son propre modèle, prompt et outils. Les sous-agents travaillent en parallèle sur un système de fichiers partagé et contribuent au contexte de l'agent lead. Mémoire d'événements persistante sur toute la flotte, traçage complet dans Claude Console montrant quel agent a fait quoi, quand, et pourquoi. L'exemple cité par Anthropic du client Spiral a la bonne forme : Haiku comme agent lead pour le tri pas cher et le routage de requêtes, instances Opus déléguées pour la rédaction — l'hétérogénéité de modèle est le point, pas des essaims mono-modèle. Outcomes ajoute une instance Claude séparée comme grader : vous écrivez une rubrique décrivant à quoi ressemble le succès, le grader évalue la sortie dans sa propre fenêtre de contexte (isolée de la trajectoire de raisonnement de l'agent), et quand le grader pointe des problèmes l'agent itère. Gains rapportés : jusqu'à 10 points de pourcentage sur les tâches les plus difficiles versus une boucle de prompting standard, avec des chiffres spécifiques de +8,4 % sur la génération docx et +10,1 % sur pptx. L'architecture grader-en-contexte-séparé est la vraie nouveauté — elle isole la métrique de succès du même modèle qui a produit le travail, plus proche du territoire LLM-as-judge que d'une auto-critique chain-of-thought.

Les patterns multi-agents existent dans la stack agent open-source depuis plus d'un an — LangGraph, CrewAI, AutoGen, AutoGen Studio de Microsoft — Anthropic arrive donc tard pour livrer une version managée. Mais « tard et intégré » bat « tôt et à recoudre soi-même » pour beaucoup d'équipes : mémoire d'événements persistante + traçage Console + filesystem partagé + accès first-party aux modèles Claude enlève la colle d'orchestration qui restait avant dans du Python maintenu par l'utilisateur ou la fuite d'abstraction de quelqu'un. Outcomes est la pièce architecturalement plus intéressante parce qu'elle change ce qu'une boucle d'évaluation a l'air à l'intérieur des workflows agent en production. Les boucles de prompting standard cuisent le grader dans le même contexte que l'agent, ce qui veut dire que la propre trajectoire de raisonnement de l'agent dirige ce qui est « noté comme bien » — et vous finissez avec de l'auto-cohérence habillée en contrôle qualité. Séparer le grader dans son propre contexte (même famille de modèle, instance différente) vous donne LLM-as-judge à l'intérieur du runtime de l'agent, pas comme un eval offline. La revendication de 10 points de pourcentage est assez spécifique pour la tester contre votre propre charge avant d'y croire, mais l'architecture correspond à ce qui fonctionne dans la littérature de recherche.

Les deux fonctionnalités sont en bêta publique — pas de liste d'attente pour Outcomes ou Multiagent Orchestration. Dreaming (la fonctionnalité séparée de curation mémoire aussi annoncée) requiert toujours une demande d'accès. Visible dans Console dès le jour 1, donc l'outillage opérationnel est réel, pas du vaporware. Si vous faites tourner des agents Claude et trouvez que « un gros prompt avec usage d'outils » bute sur un plafond pour les tâches complexes, Multiagent Orchestration est par où commencer — le pattern Haiku-mène-Opus de Spiral est une forme copiable. Si vous générez de la sortie structurée (docs, présentations, code) où la qualité importe plus que le débit, Outcomes est où les points de pourcentage vivent. Le tarif n'a pas été divulgué dans l'annonce, donc le calcul coût-par-tâche versus une boucle agent unique est la prochaine chose à comprendre avant la production. Vaut un A/B test contre votre workflow actuel avant de s'engager.