Code With Claude : Managed Agents, routines sur cron, SWE-bench passe de 62 à 87%, Zubnet AI Nouvelles

Anthropic a roulé Code With Claude cette semaine et a shippé trois affaires qui changent ce que les builders sur Claude maintiennent eux-mêmes. Managed Agents sont des primitives natives pour exécution de code sandboxée, checkpointing, et scoping de credentials. Proactive Workflows sont des routines Claude Code qui se déclenchent sur des horaires cron, des webhooks GitHub, ou des endpoints API — Auto mode avec screening des actions destructives et détection de prompt injection, plus des worktrees pour gestion de branches isolées. La Capability Curve c'est le cadrage : SWE-bench Verified est passé de 62% (Sonnet 3.7, il y a un an) à 87% (Opus 4.7, maintenant). Demos PM par Jess Yan et Lance Martin ; Alex Albert a présenté la courbe. Les docs sont déjà live à platform.claude.com/docs/en/managed-agents/overview. Une GUI desktop redesignée avec split views et commentaires diff inline a shippé en parallèle, avec un critic Rubber Duck qui roule après le planning, après l'implémentation, et avant les tests.

Mécaniquement : Managed Agents c'est le bid d'Anthropic pour owner la couche agent-infrastructure de la même manière qu'ils ownent la couche modèle. Exécution sandboxée + checkpointing + scoping de credentials c'est exactement les primitives que LangGraph, OpenAI Agents SDK, AutoGen, et l'écosystème wrapper vendent. Des primitives natives veulent dire que, pour les stacks Claude-first, t'as plus besoin de management d'état style-LangGraph boltsé par-dessus. Proactive Workflows amène Claude Code dans le territoire cron/webhook/trigger-API ; ce qui voulait dire avant « wrap claude dans un script shell pis un timer systemd » est maintenant une routine first-class avec safety screens built-in. Le number Capability Curve c'est le message stratégique : +25 points sur SWE-bench Verified en douze mois. Le cadrage d'Albert — « set expectations » — c'est Anthropic qui parie que le modèle s'améliore assez vite pour que du scaffolding agentique élaboré devienne le mauvais endroit pour investir du temps d'ingénierie.

Effet écosystème : c'est le même move qu'OpenAI a fait avec le Agents SDK et l'Assistants API — primitives pullées up le stack, surface area du wrapper rétrécit. LangChain, LangGraph, CrewAI, AutoGen, et wrappers Claude-first similaires perdent du terrain proportionnellement à combien de state et de plumbing de credentials ils ownaient avant. La démarcation intéressante c'est à la couche protocole : MCP garde la dimension agent-tools ouverte et cross-vendor pendant que Managed Agents own la dimension exécution. Proactive Workflows + Worktrees + Auto mode + le critic Rubber Duck veulent dire que Claude Code est maintenant positionné comme runtime agent CI/CD first-class, pas juste un assistant de coding — la même niche que la track background-agent de Cursor et Codex-in-cloud d'OpenAI visent. L'orchestration d'agents cross-vendor (router entre Claude/Gemini/OpenAI) c'est encore un jeu wrapper-ecosystem ; les stacks Claude single-vendor obtiennent le bénéfice le plus direct.

Lundi matin : si tu roules Claude Code dans des setups cron ou CI custom, porte vers les Routines cette semaine — moins de moving parts, et tu hérites du screen destructive-action d'Auto mode pis de la détection de prompt-injection gratis. Si tu bâtis des produits agent par-dessus LangGraph ou AutoGen avec Claude comme modèle primaire, audite combien de management d'état est maintenant dupliqué par Managed Agents (exec sandboxée, checkpointing). Côté evals : 62→87% sur SWE-bench Verified veut dire que la plupart des tâches Python real-world vraiment difficiles sont maintenant in scope ; les patterns de prompt engineered quand le modèle était à 62% sont probablement over-fittés et te slowent down — rerun ton propre eval set contre Opus 4.7 avec le scaffolding le plus simple possible et compare contre tes prompts en production current. Le cadrage Capability Curve c'est le bet year-ahead : garde ton code assez thin pour que le modèle qui s'améliore soit le path de upgrade.

Code With Claude : Managed Agents, routines sur cron, SWE-bench passe de 62 à 87%

Plus de nouvelles