Code With Claude:Managed Agents、cron 觸發的 routine、SWE-bench 從 62 跳到 87%, Zubnet AI 新聞

Anthropic 這週開了 Code With Claude,發了三樣會改變 Claude 上的 builder 自己得維護什麼的東西。Managed Agents 是 sandboxed code execution、checkpointing 和 credential scoping 的原生原語。Proactive Workflows 是 Claude Code 的 routine,可以掛在 cron 時間表、GitHub webhook 或 API endpoint 上觸發 —— Auto mode 帶 destructive-action screening 和 prompt-injection detection,外加用於隔離 branch 的 worktrees。Capability Curve 就是那個 framing:SWE-bench Verified 一年裡從 62%(Sonnet 3.7)漲到了 87%(Opus 4.7)。PM demo 由 Jess Yan 和 Lance Martin 做;Alex Albert 上台講了那條曲線。文件已經上線在 platform.claude.com/docs/en/managed-agents/overview。桌面 GUI 重新設計了,帶 split view 和 inline diff 評論;還有個 Rubber Duck critic,會在 plan 之後、implement 之後、跑測試之前各跑一次。

機制上:Managed Agents 是 Anthropic 想 own 住 agent-infrastructure 那一層的嘗試,跟他們 own 模型層一樣的方式。Sandboxed 執行 + checkpointing + credential scoping 正是 LangGraph、OpenAI Agents SDK、AutoGen 以及整個 wrapper 生態在賣的原語。原生原語意味著,對 Claude-first 的 stack 來說,你不需要再在上面螺絲一層 LangGraph 風格的狀態管理。Proactive Workflows 把 Claude Code 拉進了 cron/webhook/API-trigger 的地盤;以前那種「把 claude 包在 shell 腳本和 systemd timer 裡」的做法,現在是 first-class 的 routine,內建了 safety screen。Capability Curve 那個數字是戰略層面的訊號:十二個月在 SWE-bench Verified 上 +25 分。Albert 的 framing —— 「set expectations」—— 是 Anthropic 在押:模型本身改善的速度,足夠快到讓精心搭建的 agentic scaffolding 變成錯誤的工程投入。

生態影響:這跟 OpenAI 用 Agents SDK 和 Assistants API 做的事情是一個 move —— 原語往上拉,wrapper 層的 surface area 縮水。LangChain、LangGraph、CrewAI、AutoGen 以及類似的 Claude-first wrapper,丟的地盤多少,跟它們之前 own 多少狀態和 credential plumbing 成正比。有意思的分界在協定層:MCP 保留了 agent-tools 這條維度開放、跨 vendor,Managed Agents 接管了執行這條維度。Proactive Workflows + Worktrees + Auto mode + Rubber Duck critic 加起來,Claude Code 現在被定位成一個 first-class 的 CI/CD agent runtime,而不只是一個編碼助手 —— 跟 Cursor 的 background-agent 路線、OpenAI 的 Codex-in-cloud 瞄準的是同一塊。跨 vendor 的 agent 編排(在 Claude/Gemini/OpenAI 之間路由)還是 wrapper 生態的遊戲;single-vendor 的 Claude stack 受益最直接。

週一上手:如果你的 Claude Code 跑在自己寫的 cron 或者 CI 裡,這週把它移到 Routines —— moving part 少了,順手就拿到 Auto mode 的 destructive-action screen 和 prompt-injection detection。如果你在 LangGraph 或者 AutoGen 上面用 Claude 當主力模型搭 agent 產品,審一下有多少狀態管理已經被 Managed Agents 的原語(sandboxed exec、checkpointing)重複掉了。eval 這一側:SWE-bench Verified 62→87% 意味著大部分真正難的 Python real-world 任務現在都進了 scope;模型在 62% 那陣子工程出來的 prompt pattern 現在很可能 over-fit 了,反而拖你的速度 —— 用最簡單的 scaffolding 把你自己的 eval 集對著 Opus 4.7 重跑一遍,跟你 production 裡現行的 prompt 比一比。Capability Curve 這個 framing 就是一年期的押注:把程式碼維持得足夠薄,讓模型變好本身就是你的 upgrade 路徑。

Code With Claude:Managed Agents、cron 觸發的 routine、SWE-bench 從 62 跳到 87%

更多新聞