微軟週二揭露,由 Autonomous Code Security 團隊(VP Taesoo Kim 領軍)打造的代號 MDASH 的 agentic 安全 harness,協助研究人員在 Windows 網路與驗證 stack 中發現了 16 個新漏洞——其中包括四個 critical 等級的遠端程式碼執行(RCE)缺陷。四個 RCE 中的兩個(CVE-2026-40361 與 CVE-2026-40364)被微軟評為「更可能被利用」。架構比披露數量更重要:MDASH 協調超過 100 個專門 AI agent,搭配一個由 frontier 模型與蒸餾模型組成的 ensemble,端到端地「發現、辯論、驗證」可利用漏洞。Kim 在部落格中的措辭很尖銳:「持久優勢在於圍繞模型的 agentic 系統,而不是任何單一模型。」——這是一個明確的聲明:微軟在 harness 設計上競爭,而不是在用了哪個模型。
benchmark 數字能有用地分成可信和自報兩類。最乾淨的資料點是 CyberGym,一個由 1,507 個 OSS-Fuzz 專案漏洞構成的外部 benchmark:MDASH 拿到 88.45%,比下一名系統大約領先 5 個百分點。這是對位其他 agentic 漏洞發現器的可比測量。內部數字更響亮但更值得懷疑:在 clfs.sys 五年確認 MSRC 漏洞上的 recall 是 96%,在 tcpip.sys 上是 100%,在一個名為 StorageDrive 的私有 Windows driver 上(故意注入了 21 個漏洞,包括 kernel UAF、整數處理、IOCTL 校驗缺口、鎖錯誤)21/21。在已確認 CVE 上的 recall 測的是模型能否重新發現已知 bug,而不是能否發現真正的新 bug;StorageDrive benchmark 雖然控制了訓練資料不被污染,本質上仍是微軟給自己打分。本次 Patch Tuesday 公布的 16 個新 Windows 漏洞才是最有分量的運作證據——未知 bug,被一個沒見過它們的系統在生產程式碼中找到。
生態層面的讀法是:agentic 漏洞發現差不多同時從研究好奇心跨入生產級——在三家前沿實驗室:去年 Google DeepMind 的 Big Sleep,上週 OpenAI 的 Daybreak,以及現在微軟的 MDASH。三者都把模型 ensemble 與多 agent 辯論 harness 配對,三者都開始對真實程式碼庫產出真正的 CVE。對防禦端 stack 來說,這意味著瓶頸從「AI 能不能找到 bug」變成「AI 能不能透過負責任揭露把這些 bug 推得比攻擊者找到同一批 bug 更快」。對攻擊端來說,同一種 harness 模式對任何能圍繞一個 open-weights 模型接上 100+ 專門 agent 的人都是可用的——微軟聲稱「系統是護城河,模型不是」的同時,也默認承認這一手法可重現。MDASH 本身處於面向客戶的有限私有 preview。
對 builder:如果你維護一個有規模的程式碼庫,問題不再是 agentic 安全工具會不會找到你的 bug,而是哪一個先到——你自己的預揭露掃描,還是別人的。三件值得追蹤的具體事:(1) CyberGym 榜單的變化,這是與可比系統對位的唯一第三方測量;(2) 微軟會不會像 DeepMind 公布 Big Sleep 那樣公布 MDASH 的 agent 辯論 transcripts——那才是真正可重現的產物;(3) MDASH 風格的工具會以 commodity 形式出現在 Defender 裡,還是以獨立 SKU 賣給微軟客戶。Kim 標記的那個轉折——「AI 漏洞發現可以規模化」——會對那些既負擔不起自己 agentic harness、又等不起產品化的小團隊衝擊最大。
