Code With Claude: Managed Agents, rotinas em cron, SWE-bench salta de 62 a 87%

A Anthropic rodou Code With Claude esta semana e enviou três coisas que mudam o que builders em Claude mantêm eles mesmos. Managed Agents são primitivas nativas para execução de código sandboxed, checkpointing, e scoping de credenciais. Proactive Workflows são rotinas Claude Code que disparam em horários cron, webhooks do GitHub, ou endpoints API — modo Auto com screening de ações destrutivas e detecção de prompt injection, mais worktrees para gestão de branches isoladas. A Capability Curve é o framing: SWE-bench Verified passou de 62% (Sonnet 3.7, um ano atrás) a 87% (Opus 4.7, agora). Demos PM por Jess Yan e Lance Martin; Alex Albert apresentou a curva. Os docs já estão live em platform.claude.com/docs/en/managed-agents/overview. Uma GUI desktop redesenhada com split views e comentários diff inline enviou em paralelo, com um crítico Rubber Duck rodando depois do planning, depois da implementação, e antes dos testes.

Mecanicamente: Managed Agents é a aposta da Anthropic para possuir a camada agent-infrastructure da mesma maneira que possuem a camada modelo. Execução sandboxed + checkpointing + scoping de credenciais são exatamente as primitivas que LangGraph, OpenAI Agents SDK, AutoGen, e o ecossistema wrapper vendem. Primitivas nativas significam que, para stacks Claude-first, você já não precisa de gestão de estado estilo-LangGraph parafusada por cima. Proactive Workflows traz Claude Code ao território cron/webhook/disparador-API; o que antes significava "envolver claude num script shell e um timer systemd" é agora uma rotina de primeira classe com screens de segurança built-in. O número Capability Curve é a mensagem estratégica: +25 pontos no SWE-bench Verified em doze meses. O framing de Albert — "set expectations" — é a Anthropic apostando que o modelo melhora rápido o suficiente para que scaffolding agêntico elaborado se torne o lugar errado para investir tempo de engenharia.

Efeito ecossistema: este é o mesmo movimento que a OpenAI fez com o Agents SDK e a Assistants API — primitivas puxadas para cima na pilha, a superfície do wrapper encolhe. LangChain, LangGraph, CrewAI, AutoGen, e wrappers Claude-first similares perdem terreno proporcionalmente a quanto estado e plumbing de credenciais possuíam antes. A demarcação interessante é na camada de protocolo: MCP mantém a dimensão agent-tools aberta e cross-vendor enquanto Managed Agents possui a dimensão execução. Proactive Workflows + Worktrees + modo Auto + o crítico Rubber Duck significam que Claude Code está agora posicionado como runtime agent CI/CD de primeira classe, não apenas um assistente de codificação — o mesmo nicho que o track background-agent do Cursor e Codex-in-cloud da OpenAI visam. A orquestração de agentes cross-vendor (rotear entre Claude/Gemini/OpenAI) ainda é um jogo do ecossistema wrapper; os stacks Claude single-vendor obtêm o benefício mais direto.

Segunda-feira: se você roda Claude Code em setups cron ou CI custom, porte para Routines esta semana — menos partes móveis, e você herda o screen destructive-action do modo Auto e a detecção de prompt-injection de graça. Se você está construindo produtos de agentes em cima de LangGraph ou AutoGen com Claude como modelo primário, audite quanto manejo de estado está agora duplicado por Managed Agents (exec sandboxed, checkpointing). No lado de evals: 62→87% no SWE-bench Verified significa que a maioria das tarefas Python real-world genuinamente difíceis estão agora em scope; os patterns de prompt engineered quando o modelo estava em 62% provavelmente estão over-fitted e te atrasam — re-rode seu próprio eval set contra Opus 4.7 com o scaffolding mais simples possível e compare contra seus prompts em produção atuais. O framing Capability Curve é a aposta year-ahead: mantenha seu código fino o suficiente para que o modelo melhorando seja o caminho de upgrade.

Code With Claude: Managed Agents, rotinas em cron, SWE-bench salta de 62 a 87%

Mais notícias