微软 MDASH 发布:100+ 智能体管线做代码审计,CyberGym 88.45%

微软本周推出了 MDASH——一个多模型代理平台,使用 100 多个专门的 AI 代理,组织为多阶段管线,以规模化审计代码。注意 framing:不是「寻找 AI 漏洞」(InfoQ 标题有误导)而是「使用 AI 代理寻找传统代码漏洞」。阶段:扫描、辩论、验证、去重、利用——每个由不同的专门代理角色处理,而不是一个单一代理顺序做所有事情。Model-agnostic 设计。对致力于自治 SecOps 或 agent-driven 代码审查的 builder 来说,这里的架构分类法就是 takeaway,无论你是否能访问平台本身。

数字是具体的。在 CyberGym,这个公开的 1,507 个真实世界漏洞 benchmark 上,MDASH 得分 **88.45%**。在微软的内部历史案例集上:Windows Common Log File System 驱动(`clfs.sys`)漏洞上 **96% 召回率**,TCP/IP 栈(`tcpip.sys`)案例上 **100% 召回率**。测试的代码库是 Windows、Hyper-V 和 Azure——大型、成熟、重度审计的 C 和 C++ 系统,发现新颖 CVE 很难,召回率是有意义的指标。诚实通过的报告限制:编排风险,具体是「单个错误配置权限边界的 blast radius」。100+ 个代理彼此交谈并与源码树交谈是很多需要保持干净的信任边界,平台承认这一点。

生态解读:这是 agent-infrastructure 论点应用于安全研究,架构模式可以在没有微软具体实现的访问的情况下复现。「每个管线阶段一个专门代理」的拆分——扫描、辩论、验证、去重、利用——对任何撞上单代理上下文爆炸天花板的多代理系统都是有用的模板。与本月的其他 agent infra 自然配对:Google Genkit 中间件的 3-hook-point 组合、腾讯的 4-tier 内存金字塔、Dreadnode 早些时候的红队代理工作。形状是一样的——把代理 loop 拆成可组合的专门阶段,而不是一个尝试做所有事情的单体 loop。微软的具体贡献是显式的*辩论*和*验证*阶段,大多数已发布的代理 harness 把它们合并在一起。

周一上午:MDASH 本身是「内部微软 + 与选定客户的有限私有预览」——没有 GitHub repo,没有许可,大多数 builder 没有公开访问权限。今天可用的是架构模板。如果你在构建自治代码审计代理,你最小可行管线应该是:扫描代理提出候选,辩论代理为每个候选论证双方,验证代理运行具体测试,去重代理合并语义等价的发现,利用代理为幸存者产生 PoC。如果你复现这个,88.45% CyberGym 是要打败的标杆。诚实的未知:微软在 MDASH 内部使用的底层模型是什么,各阶段单独的成功率是什么,以及标题数字中有多少是管线 vs 模型实力。

微软 MDASH 发布:100+ 智能体管线做代码审计,CyberGym 88.45%

更多新闻