AWS DevOps Agent 达到 GA,根因准确率 94%,比谷歌 Auto-Diagnose 论文晚一周

亚马逊在 2026 年 4 月 17 日将 DevOps Agent 发布到正式可用(GA),这是一个自 2025 年 12 月起处于预览阶段的自主事件调查员的生产发布。当一个 CloudWatch 警报、PagerDuty 告警、Dynatrace 问题或 ServiceNow 工单触发时,agent 在没有人类提示的情况下接管:它关联遥测、跨服务追踪依赖、拉取最近的部署和代码变更,然后提出一个根因。这次发布比谷歌的 Auto-Diagnose 预印本晚一周,后者使用 Gemini 2.5 Flash 对集成测试日志做分诊,根因准确率 90.14%。两家主要云厂商在同一周内发布 LLM 驱动的 SRE 分诊,这才是故事,单独一个产品不算。

引擎盖下是 Amazon Bedrock AgentCore,也就是 AWS 的 agent 运行时,不是定制的模型栈。第一天的集成面就很广:可观测性一侧有 CloudWatch、Datadog、Dynatrace、New Relic、Splunk 和 Grafana;代码与 CI-CD 一侧有 GitHub、GitLab 和 Azure DevOps;GA 新增 Azure 和本地部署支持。自定义 skill 的扩展机制是 Model Context Protocol (MCP),这让 AWS 的 SRE agent 和 Anthropic 最早的 MCP 规范走在同一条标准轨道上。计费按 agent 运行时间的秒计费,AWS Support 客户每月获得按支持级别分配的 DevOps Agent 额度,发布区域包括北弗吉尼亚、爱尔兰、法兰克福以及另外三个。

AWS 给出的预览指标:MTTR 最多降低 75%,根因准确率 94%。拿 Auto-Diagnose 在谷歌测试集上的 90.14% 一比,这种收敛很难忽视。两个不同的代码库、两个不同的前沿模型、两个不同的目标负载(集成测试 vs 生产事件),落在彼此 4 个百分点之内。它告诉你:前沿模型加上用心的提示、加上结构化的遥测、加上一条歧义时拒绝的规则,就是这类任务现在的天花板。两家厂商都没有微调定制模型,都是靠提示纪律和紧密的集成。对开发者真正重要的差别是,AWS 的 agent 是跨厂商设计(它读你的 Datadog,跟你的 PagerDuty 对话),而谷歌的那个是内部专用,不作为产品出货。

如果你在 AWS 上跑,并且有真实的事件量,那 playbook 一夜之间就翻新了。集成面就是你已经在用的那些工具,按秒计费意味着你为真实的 agent 运行时间付费,而不是闲置容量。在生产信任它之前有两件事要盯住。第一,满事件节奏下的按秒价格:每月几百个事件、每次 agent 跑 10 分钟,这和多加一条日志管线不是一回事。第二,拒绝行为。Auto-Diagnose 的硬性反幻觉约束是维持高准确率最重要的工程选择。从 AWS 的 GA 公告里看不明显,Bedrock AgentCore 是否强制同等的纪律,还是在遥测稀薄的时候会吐出自信而错误的答案。对不在 AWS 上的开发者,信号是:自主事件调查现在已经是一个有两个活跃厂商的产品品类,而且 MCP 是事实上的互操作标准。预计 Azure 会在一个季度内推出等价产品,现在就开始把 runbook 重写成 agent 可读的格式,比以后再做要划算。

AWS DevOps Agent 达到 GA,根因准确率 94%,比谷歌 Auto-Diagnose 论文晚一周

更多新闻