Anthropic 在上周的 Code with Claude 2026 大会上为 Claude Managed Agents 交付了两个新部件:Multiagent Orchestration(主智能体 + 专家子智能体)和 Outcomes(细则评分的迭代循环)。两者现已公测。对于任何在"一个 prompt、一个智能体、一个任务"模式之外构建智能体工作流的人 —— 很多团队在复杂调查或多步内容生成上已经撞到这个天花板 —— 这些是 Anthropic 缺失的编排原语,相对于 LangChain、CrewAI 和 AutoGen 已经运营了一年多的位置。

Multiagent Orchestration:主智能体将复杂任务分解为部分,并委派给专家子智能体,每个智能体有自己的模型、prompt 和工具。子智能体在共享文件系统上并行工作并将结果贡献回主智能体的上下文。整个 fleet 上的持久事件记忆,Claude Console 中的完整追踪显示哪个智能体在何时做了什么以及为什么。Anthropic 引用客户 Spiral 的例子是正确的形状:Haiku 作为主智能体进行廉价分流和请求路由,Opus 实例被委派进行起草 —— 模型异构性是重点,而不是单模型蜂群。Outcomes 添加一个独立的 Claude 实例作为评分器:你写一个描述成功是什么样子的评分细则,评分器在自己的上下文窗口中评估输出(与智能体的推理轨迹隔离),当评分器指出问题时智能体迭代。报告的收益:最难任务上比标准 prompting 循环高达 10 个百分点,具体数字为 docx 生成 +8.4% 和 pptx +10.1%。grader-在-独立-上下文 架构是真正的新东西 —— 它将成功指标与产出工作的同一模型隔离开,更接近 LLM-as-judge 领域,而不是 chain-of-thought 自我批评。

多智能体模式已经在开源智能体堆栈中存在一年多 —— LangGraph、CrewAI、AutoGen、Microsoft 的 AutoGen Studio —— 所以 Anthropic 交付托管版本是迟到的。但"迟到且集成"对很多团队来说胜过"早且自己缝起来":持久事件记忆 + Console 追踪 + 共享文件系统 + 对 Claude 模型的 first-party 访问移除了以前在用户维护的 Python 或某人泄漏抽象中的编排粘合代码。Outcomes 是架构上更有趣的部件,因为它改变了生产智能体工作流中评估循环的样子。标准 prompting 循环将评分器烤进与智能体相同的上下文中,这意味着智能体自己的推理轨迹引导什么被"评分为好" —— 你最终得到伪装成质量控制的自我一致性。将评分器分离到自己的上下文(相同模型家族,不同实例)给你智能体运行时内的 LLM-as-judge,而不是离线 eval。10 个百分点的收益声明足够具体,可以在相信之前在你自己的工作负载上测试,但架构与研究文献中的工作原理一致。

两个功能都在公测中 —— Outcomes 或 Multiagent Orchestration 没有等待名单。Dreaming(同时宣布的独立记忆管理功能)仍需要请求访问。从第一天开始 Console 可见,所以运营工具是真实的,不是 vaporware。如果你正在运行 Claude 智能体,发现"一个带工具使用的大 prompt"在复杂任务上撞到天花板,Multiagent Orchestration 是开始的地方 —— Spiral 的 Haiku-领-Opus 模式是可复制的形状。如果你在生成结构化输出(文档、演示、代码),其中质量比吞吐量更重要,Outcomes 是百分点居住的地方。公告中未披露定价,所以与单智能体循环的成本-每任务数学是生产前要弄清楚的下一件事。在承诺之前对你当前工作流进行 A/B 测试值得。