微軟 MDASH 發布:100+ 智能體管線做程式碼稽核,CyberGym 88.45%

微軟本週推出了 MDASH——一個多模型代理平台,使用 100 多個專門的 AI 代理,組織為多階段管線,以規模化稽核程式碼。注意 framing:不是「尋找 AI 漏洞」(InfoQ 標題有誤導)而是「使用 AI 代理尋找傳統程式碼漏洞」。階段:掃描、辯論、驗證、去重、利用——每個由不同的專門代理角色處理,而不是一個單一代理順序做所有事情。Model-agnostic 設計。對致力於自治 SecOps 或 agent-driven 程式碼審查的 builder 來說,這裡的架構分類法就是 takeaway,無論你是否能存取平台本身。

數字是具體的。在 CyberGym,這個公開的 1,507 個真實世界漏洞 benchmark 上,MDASH 得分 **88.45%**。在微軟的內部歷史案例集上:Windows Common Log File System 驅動(`clfs.sys`)漏洞上 **96% 召回率**,TCP/IP 堆疊(`tcpip.sys`)案例上 **100% 召回率**。測試的程式碼庫是 Windows、Hyper-V 和 Azure——大型、成熟、重度稽核的 C 和 C++ 系統,發現新穎 CVE 很難,召回率是有意義的指標。誠實通過的報告限制:編排風險,具體是「單個錯誤設定權限邊界的 blast radius」。100+ 個代理彼此交談並與原始碼樹交談是很多需要保持乾淨的信任邊界,平台承認這一點。

生態解讀:這是 agent-infrastructure 論點應用於安全研究,架構模式可以在沒有微軟具體實作的存取的情況下重現。「每個管線階段一個專門代理」的拆分——掃描、辯論、驗證、去重、利用——對任何撞上單代理上下文爆炸天花板的多代理系統都是有用的模板。與本月的其他 agent infra 自然配對:Google Genkit 中介軟體的 3-hook-point 組合、騰訊的 4-tier 記憶體金字塔、Dreadnode 早些時候的紅隊代理工作。形狀是一樣的——把代理 loop 拆成可組合的專門階段,而不是一個嘗試做所有事情的單體 loop。微軟的具體貢獻是明確的*辯論*和*驗證*階段,大多數已發布的代理 harness 把它們合併在一起。

週一早上:MDASH 本身是「內部微軟 + 與選定客戶的有限私有預覽」——沒有 GitHub repo,沒有授權,大多數 builder 沒有公開存取權限。今天可用的是架構模板。如果你在建構自治程式碼稽核代理,你最小可行管線應該是:掃描代理提出候選,辯論代理為每個候選論證雙方,驗證代理執行具體測試,去重代理合併語義等價的發現,利用代理為倖存者產生 PoC。如果你重現這個,88.45% CyberGym 是要打敗的標竿。誠實的未知:微軟在 MDASH 內部使用的底層模型是什麼,各階段單獨的成功率是什麼,以及標題數字中有多少是管線 vs 模型實力。

微軟 MDASH 發布:100+ 智能體管線做程式碼稽核,CyberGym 88.45%

更多新聞