AWS DevOps Agent llega a GA con 94% de precisión en causa-raíz, una semana después del paper Auto-Diagnose de Google

Amazon envió DevOps Agent a disponibilidad general el 17 de abril de 2026, el lanzamiento en producción de un investigador de incidentes autónomo que estaba en preview desde diciembre de 2025. Cuando una alarma CloudWatch, una alerta PagerDuty, un problema Dynatrace o un ticket ServiceNow se dispara, el agente toma el relevo sin prompt humano: correlaciona telemetría, rastrea dependencias a través de servicios, trae los cambios de despliegue y código recientes, y propone una causa-raíz. El lanzamiento aterriza una semana después del preprint Auto-Diagnose de Google, que usaba Gemini 2.5 Flash para triaje de logs de tests de integración con 90,14% de precisión en causa-raíz. Que dos grandes proveedores de nube envíen triaje SRE por LLM en la misma semana es la historia, no cada producto por separado.

Bajo el capó es Amazon Bedrock AgentCore, el runtime de agentes de AWS, no un stack de modelos a medida. La superficie de integración es amplia desde el primer día: CloudWatch, Datadog, Dynatrace, New Relic, Splunk y Grafana del lado de observabilidad; GitHub, GitLab y Azure DevOps del lado de código y CI-CD; soporte Azure y on-premises añadido en GA. Model Context Protocol (MCP) es el mecanismo de extensión para skills custom, lo que pone al agente SRE de AWS y al spec MCP original de Anthropic en el mismo carril de estándares. La facturación es por segundo de runtime de agente, los clientes AWS Support reciben créditos DevOps Agent mensuales escalados al nivel de soporte, y las regiones de lanzamiento incluyen North Virginia, Irlanda, Fráncfort más tres otras.

Métricas del preview por AWS: hasta 75% de reducción de MTTR y 94% de precisión en causa-raíz. Compara con Auto-Diagnose en 90,14% sobre el corpus de tests de Google, y la convergencia es difícil de ignorar. Dos bases de código distintas, dos modelos frontera distintos, dos cargas objetivo distintas (tests de integración vs incidentes en producción), aterrizando dentro de 4 puntos porcentuales una de otra. Lo que esto te dice: modelos frontera más prompting cuidadoso más telemetría estructurada más una regla de rechazo-ante-ambigüedad son ahora el techo para esta tarea. Ninguno de los dos proveedores fine-tuneó un modelo custom; ambos se apoyaron en la disciplina del prompting y una integración ajustada. La diferencia que importa para los desarrolladores es que el agente de AWS es cross-proveedor por diseño (lee tu Datadog y habla con tu PagerDuty), mientras que el de Google es interno y no sale como producto.

Si corres en AWS y tienes volumen real de incidentes, el playbook cambia de la noche a la mañana. La superficie de integración son las herramientas que ya usas, y la facturación por segundo significa que pagas por runtime de agente real, no por capacidad ociosa. Dos cosas a vigilar antes de confiar en producción. Primero, el precio por segundo a cadencia plena de incidentes: a corridas de 10 minutos de agente sobre unos cientos de incidentes al mes, no es lo mismo que añadir un pipeline de logs más. Segundo, el comportamiento de rechazo. La restricción anti-alucinación dura de Auto-Diagnose fue la decisión de ingeniería más importante que mantuvo la precisión alta. No es obvio desde el anuncio GA de AWS si Bedrock AgentCore impone la disciplina equivalente, o si envía respuestas confiadamente incorrectas cuando la telemetría es delgada. Para desarrolladores que no están en AWS, la señal es que la investigación autónoma de incidentes es ahora una categoría de producto con dos proveedores en vivo y un estándar de interoperabilidad de facto en MCP. Espera que Azure envíe algo equivalente en un trimestre, y comienza a reescribir los runbooks en formatos legibles por agentes ahora en lugar de después.

AWS DevOps Agent llega a GA con 94% de precisión en causa-raíz, una semana después del paper Auto-Diagnose de Google

Más noticias