AWS DevOps Agent chega ao GA com 94% de precisão em causa-raiz, uma semana após o paper Auto-Diagnose do Google

A Amazon lançou o DevOps Agent em disponibilidade geral em 17 de abril de 2026, o lançamento em produção de um investigador de incidentes autônomo que estava em preview desde dezembro de 2025. Quando um alarme CloudWatch, um alerta PagerDuty, um problema Dynatrace ou um ticket ServiceNow dispara, o agente assume sem prompt humano: correlaciona telemetria, rastreia dependências entre serviços, puxa as mudanças de deploy e código recentes, e propõe uma causa-raiz. O lançamento cai uma semana depois do preprint Auto-Diagnose do Google, que usou Gemini 2.5 Flash para triagem de logs de testes de integração com 90,14% de precisão em causa-raiz. Dois grandes provedores de nuvem lançando triagem SRE por LLM na mesma semana é a história, não cada produto isolado.

Sob o capô é o Amazon Bedrock AgentCore, o runtime de agentes da AWS, não uma stack de modelos customizada. A superfície de integração é ampla desde o primeiro dia: CloudWatch, Datadog, Dynatrace, New Relic, Splunk e Grafana no lado de observabilidade; GitHub, GitLab e Azure DevOps no lado de código e CI-CD; suporte Azure e on-premises adicionado no GA. Model Context Protocol (MCP) é o mecanismo de extensão para skills customizadas, o que coloca o agente SRE da AWS e o spec MCP original da Anthropic no mesmo trilho de padrões. A cobrança é por segundo de runtime do agente, clientes AWS Support recebem créditos mensais do DevOps Agent escalados pelo nível de suporte, e as regiões de lançamento incluem North Virginia, Irlanda, Frankfurt mais três outras.

Métricas do preview pela AWS: até 75% de redução de MTTR e 94% de precisão em causa-raiz. Compare com o Auto-Diagnose em 90,14% sobre o corpus de testes do Google, e a convergência é difícil de ignorar. Duas bases de código diferentes, dois modelos de fronteira diferentes, duas cargas-alvo diferentes (testes de integração vs incidentes em produção), caindo dentro de 4 pontos percentuais um do outro. O que isso te diz: modelos de fronteira mais prompting cuidadoso mais telemetria estruturada mais uma regra de recusa-sob-ambiguidade são agora o teto para essa tarefa. Nenhum dos dois fornecedores fez fine-tuning de um modelo customizado; ambos se apoiaram na disciplina do prompting e numa integração apertada. A diferença que importa para desenvolvedores é que o agente da AWS é cross-fornecedor por design (ele lê seu Datadog e fala com seu PagerDuty), enquanto o do Google é interno e não sai como produto.

Se você roda na AWS e tem volume real de incidentes, o playbook muda da noite para o dia. A superfície de integração são as ferramentas que você já usa, e a cobrança por segundo significa que você paga por runtime de agente real, não por capacidade ociosa. Duas coisas para ficar de olho antes de confiar em produção. Primeiro, o preço por segundo em cadência cheia de incidentes: em corridas de 10 minutos de agente sobre algumas centenas de incidentes por mês, não é a mesma coisa que adicionar mais um pipeline de logs. Segundo, o comportamento de recusa. A restrição anti-alucinação dura do Auto-Diagnose foi a decisão de engenharia mais importante que manteve a precisão alta. Não é óbvio pelo anúncio GA da AWS se o Bedrock AgentCore impõe a disciplina equivalente, ou se ele entrega respostas confiantemente erradas quando a telemetria é rala. Para desenvolvedores que não estão na AWS, o sinal é que a investigação autônoma de incidentes agora é uma categoria de produto com dois fornecedores vivos e um padrão de interoperabilidade de facto no MCP. Espere a Azure lançar algo equivalente em um trimestre, e comece a reescrever os runbooks em formatos legíveis por agentes agora em vez de depois.

AWS DevOps Agent chega ao GA com 94% de precisão em causa-raiz, uma semana após o paper Auto-Diagnose do Google

Mais notícias