AWS DevOps Agent 達到 GA,根因準確率 94%,比 Google Auto-Diagnose 論文晚一週

Amazon 在 2026 年 4 月 17 日將 DevOps Agent 發布到正式可用(GA),這是一個自 2025 年 12 月起處於預覽階段的自主事件調查員的生產發布。當一個 CloudWatch 警報、PagerDuty 告警、Dynatrace 問題或 ServiceNow 工單觸發時,agent 在沒有人類提示的情況下接管:它關聯遙測、跨服務追蹤依賴、拉取最近的部署和程式碼變更,然後提出一個根因。這次發布比 Google 的 Auto-Diagnose 預印本晚一週,後者使用 Gemini 2.5 Flash 對整合測試日誌做分診,根因準確率 90.14%。兩家主要雲廠商在同一週內發布 LLM 驅動的 SRE 分診,這才是故事,單獨一個產品不算。

引擎蓋下是 Amazon Bedrock AgentCore,也就是 AWS 的 agent 執行時,不是客製的模型堆疊。第一天的整合面就很廣:可觀測性一側有 CloudWatch、Datadog、Dynatrace、New Relic、Splunk 和 Grafana;程式碼與 CI-CD 一側有 GitHub、GitLab 和 Azure DevOps;GA 新增 Azure 和本地部署支援。自訂 skill 的擴充機制是 Model Context Protocol (MCP),這讓 AWS 的 SRE agent 和 Anthropic 最早的 MCP 規範走在同一條標準軌道上。計費按 agent 執行時間的秒計費,AWS Support 客戶每月獲得按支援級別分配的 DevOps Agent 額度,發布區域包括北維吉尼亞、愛爾蘭、法蘭克福以及另外三個。

AWS 給出的預覽指標:MTTR 最多降低 75%,根因準確率 94%。拿 Auto-Diagnose 在 Google 測試集上的 90.14% 一比,這種收斂很難忽視。兩個不同的程式碼庫、兩個不同的前沿模型、兩個不同的目標負載(整合測試 vs 生產事件),落在彼此 4 個百分點之內。它告訴你:前沿模型加上用心的提示、加上結構化的遙測、加上一條歧義時拒絕的規則,就是這類任務現在的天花板。兩家廠商都沒有微調客製模型,都是靠提示紀律和緊密的整合。對開發者真正重要的差別是,AWS 的 agent 是跨廠商設計(它讀你的 Datadog,跟你的 PagerDuty 對話),而 Google 的那個是內部專用,不作為產品出貨。

如果你在 AWS 上跑,並且有真實的事件量,那 playbook 一夜之間就翻新了。整合面就是你已經在用的那些工具,按秒計費意味著你為真實的 agent 執行時間付費,而不是閒置容量。在生產信任它之前有兩件事要盯住。第一,滿事件節奏下的按秒價格:每月幾百個事件、每次 agent 跑 10 分鐘,這和多加一條日誌管線不是一回事。第二,拒絕行為。Auto-Diagnose 的硬性反幻覺約束是維持高準確率最重要的工程選擇。從 AWS 的 GA 公告裡看不明顯,Bedrock AgentCore 是否強制同等的紀律,還是在遙測稀薄的時候會吐出自信而錯誤的答案。對不在 AWS 上的開發者,訊號是:自主事件調查現在已經是一個有兩個活躍廠商的產品品類,而且 MCP 是事實上的互通標準。預計 Azure 會在一個季度內推出等價產品,現在就開始把 runbook 重寫成 agent 可讀的格式,比以後再做要划算。

AWS DevOps Agent 達到 GA,根因準確率 94%,比 Google Auto-Diagnose 論文晚一週

更多新聞