Anthropic 在上週的 Code with Claude 2026 大會上為 Claude Managed Agents 交付了兩個新部件:Multiagent Orchestration(主智慧體 + 專家子智慧體)和 Outcomes(細則評分的迭代迴圈)。兩者現已公測。對於任何在「一個 prompt、一個智慧體、一個任務」模式之外構建智慧體工作流的人 —— 很多團隊在複雜調查或多步內容生成上已經撞到這個天花板 —— 這些是 Anthropic 缺失的編排原語,相對於 LangChain、CrewAI 和 AutoGen 已經運營了一年多的位置。
Multiagent Orchestration:主智慧體將複雜任務分解為部分,並委派給專家子智慧體,每個智慧體有自己的模型、prompt 和工具。子智慧體在共享檔案系統上並行工作並將結果貢獻回主智慧體的上下文。整個 fleet 上的持久事件記憶,Claude Console 中的完整追蹤顯示哪個智慧體在何時做了什麼以及為什麼。Anthropic 引用客戶 Spiral 的例子是正確的形狀:Haiku 作為主智慧體進行廉價分流和請求路由,Opus 實例被委派進行起草 —— 模型異構性是重點,而不是單模型蜂群。Outcomes 添加一個獨立的 Claude 實例作為評分器:你寫一個描述成功是什麼樣子的評分細則,評分器在自己的上下文視窗中評估輸出(與智慧體的推理軌跡隔離),當評分器指出問題時智慧體迭代。報告的收益:最難任務上比標準 prompting 迴圈高達 10 個百分點,具體數字為 docx 生成 +8.4% 和 pptx +10.1%。grader-在-獨立-上下文 架構是真正的新東西 —— 它將成功指標與產出工作的同一模型隔離開,更接近 LLM-as-judge 領域,而不是 chain-of-thought 自我批評。
多智慧體模式已經在開源智慧體堆疊中存在一年多 —— LangGraph、CrewAI、AutoGen、Microsoft 的 AutoGen Studio —— 所以 Anthropic 交付托管版本是遲到的。但「遲到且整合」對很多團隊來說勝過「早且自己縫起來」:持久事件記憶 + Console 追蹤 + 共享檔案系統 + 對 Claude 模型的 first-party 存取移除了以前在使用者維護的 Python 或某人洩漏抽象中的編排粘合程式碼。Outcomes 是架構上更有趣的部件,因為它改變了生產智慧體工作流中評估迴圈的樣子。標準 prompting 迴圈將評分器烤進與智慧體相同的上下文中,這意味著智慧體自己的推理軌跡引導什麼被「評分為好」 —— 你最終得到偽裝成品質控制的自我一致性。將評分器分離到自己的上下文(相同模型家族,不同實例)給你智慧體執行時內的 LLM-as-judge,而不是離線 eval。10 個百分點的收益聲明足夠具體,可以在相信之前在你自己的工作負載上測試,但架構與研究文獻中的工作原理一致。
兩個功能都在公測中 —— Outcomes 或 Multiagent Orchestration 沒有等待名單。Dreaming(同時宣布的獨立記憶管理功能)仍需要請求存取。從第一天開始 Console 可見,所以營運工具是真實的,不是 vaporware。如果你正在運行 Claude 智慧體,發現「一個帶工具使用的大 prompt」在複雜任務上撞到天花板,Multiagent Orchestration 是開始的地方 —— Spiral 的 Haiku-領-Opus 模式是可複製的形狀。如果你在生成結構化輸出(文件、簡報、程式碼),其中品質比吞吐量更重要,Outcomes 是百分點居住的地方。公告中未披露定價,所以與單智慧體迴圈的成本-每任務數學是生產前要弄清楚的下一件事。在承諾之前對你當前工作流進行 A/B 測試值得。
