Code With Claude:Managed Agents、cron 触发的 routine、SWE-bench 从 62 跳到 87%, Zubnet AI 新闻

Anthropic 这周开了 Code With Claude,发了三样会改变 Claude 上的 builder 自己得维护什么的东西。Managed Agents 是 sandboxed code execution、checkpointing 和 credential scoping 的原生原语。Proactive Workflows 是 Claude Code 的 routine,可以挂在 cron 时间表、GitHub webhook 或 API endpoint 上触发 —— Auto mode 带 destructive-action screening 和 prompt-injection detection,外加用于隔离 branch 的 worktrees。Capability Curve 就是那个 framing:SWE-bench Verified 一年里从 62%(Sonnet 3.7)涨到了 87%(Opus 4.7)。PM demo 由 Jess Yan 和 Lance Martin 做;Alex Albert 上台讲了那条曲线。文档已经上线在 platform.claude.com/docs/en/managed-agents/overview。桌面 GUI 重新设计了,带 split view 和 inline diff 评论;还有个 Rubber Duck critic,会在 plan 之后、implement 之后、跑测试之前各跑一次。

机制上:Managed Agents 是 Anthropic 想 own 住 agent-infrastructure 那一层的尝试,跟他们 own 模型层一样的方式。Sandboxed 执行 + checkpointing + credential scoping 正是 LangGraph、OpenAI Agents SDK、AutoGen 以及整个 wrapper 生态在卖的原语。原生原语意味着,对 Claude-first 的 stack 来说,你不需要再在上面螺丝一层 LangGraph 风格的状态管理。Proactive Workflows 把 Claude Code 拉进了 cron/webhook/API-trigger 的地盘;以前那种「把 claude 包在 shell 脚本和 systemd timer 里」的做法,现在是 first-class 的 routine,内置了 safety screen。Capability Curve 那个数字是战略层面的信号:十二个月在 SWE-bench Verified 上 +25 分。Albert 的 framing —— 「set expectations」—— 是 Anthropic 在押:模型本身改善的速度,足够快到让精心搭建的 agentic scaffolding 变成错误的工程投入。

生态影响:这跟 OpenAI 用 Agents SDK 和 Assistants API 做的事情是一个 move —— 原语往上拉,wrapper 层的 surface area 缩水。LangChain、LangGraph、CrewAI、AutoGen 以及类似的 Claude-first wrapper,丢的地盘多少,跟它们之前 own 多少状态和 credential plumbing 成正比。有意思的分界在协议层:MCP 保留了 agent-tools 这条维度开放、跨 vendor,Managed Agents 接管了执行这条维度。Proactive Workflows + Worktrees + Auto mode + Rubber Duck critic 加起来,Claude Code 现在被定位成一个 first-class 的 CI/CD agent runtime,而不只是一个编码助手 —— 跟 Cursor 的 background-agent 路线、OpenAI 的 Codex-in-cloud 瞄准的是同一块。跨 vendor 的 agent 编排(在 Claude/Gemini/OpenAI 之间路由)还是 wrapper 生态的游戏;single-vendor 的 Claude stack 受益最直接。

周一上手:如果你的 Claude Code 跑在自己写的 cron 或者 CI 里,这周把它移到 Routines —— moving part 少了,顺手就拿到 Auto mode 的 destructive-action screen 和 prompt-injection detection。如果你在 LangGraph 或者 AutoGen 上面用 Claude 当主力模型搭 agent 产品,审一下有多少状态管理已经被 Managed Agents 的原语(sandboxed exec、checkpointing)重复掉了。eval 这一侧:SWE-bench Verified 62→87% 意味着大部分真正难的 Python real-world 任务现在都进了 scope;模型在 62% 那阵子工程出来的 prompt pattern 现在很可能 over-fit 了,反而拖你的速度 —— 用最简单的 scaffolding 把你自己的 eval 集对着 Opus 4.7 重跑一遍,跟你 production 里现行的 prompt 比一比。Capability Curve 这个 framing 就是一年期的押注:把代码维持得足够薄,让模型变好本身就是你的 upgrade 路径。

Code With Claude:Managed Agents、cron 触发的 routine、SWE-bench 从 62 跳到 87%

更多新闻