Microsoft MDASH envia pipeline de 100+ agentes pra audit de código, 88.45% CyberGym

A Microsoft introduziu o MDASH essa semana — uma plataforma agêntica multi-modelo que usa mais de 100 agentes AI especializados organizados como pipeline multi-stage pra auditar código em escala. Nota o framing: não "encontrar vulnerabilidades AI" (o headline da InfoQ é enganoso) mas "encontrar vulnerabilidades de código tradicionais usando agentes AI." Stages: scanning, debate, validação, deduplicação, exploitation — cada um lidado por um papel de agente especializado diferente em vez de um único agente fazendo tudo sequencialmente. Model-agnostic por design. Pra builders trabalhando em SecOps autônomo ou code review agent-driven, a taxonomia arquitetural aqui é o takeaway, independente do acesso à plataforma em si.

Os números são concretos. No CyberGym, o benchmark público de 1,507 vulnerabilidades reais, MDASH pontua **88.45%**. Nos case sets históricos internos da Microsoft: **96% recall** em vulnerabilidades do Windows Common Log File System driver (`clfs.sys`), **100% recall** em casos do TCP/IP stack (`tcpip.sys`). Os codebases testados são Windows, Hyper-V e Azure — sistemas C e C++ grandes, maduros, fortemente auditados onde encontrar CVEs novos é difícil e recall é a métrica significativa. A limitação reportada que passa honestamente: risco de orquestração, especificamente "blast radius de um único permission boundary mal configurado." 100+ agentes falando entre si e com source trees é muito trust boundary pra manter limpo, e a plataforma reconhece.

Leitura ecossistema: essa é a tese agent-infrastructure aplicada à pesquisa de segurança, e o padrão arquitetural é reproduzível sem acesso à implementação específica da Microsoft. O split "agente especializado por stage de pipeline" — scan, debate, validate, dedupe, exploit — é um template útil pra qualquer sistema multi-agente que bate no teto de context-explosion de single-agent. Combina naturalmente com a outra agent infra desse mês: composição 3-hook-point do middleware Genkit do Google, pirâmide de memória 4-tier da Tencent, o trabalho de Dreadnode red-team agent anterior. A forma é a mesma — quebrar o loop do agente em stages especializados componíveis em vez de um loop monolítico tentando fazer tudo. A contribuição específica da Microsoft são os stages explícitos *debate* e *validation*, que a maioria dos harness de agente publicados colapsam juntos.

Segunda de manhã: o próprio MDASH é "internal Microsoft + limited private preview com selected customers" — sem repo GitHub, sem licença, sem acesso público pra maioria dos builders. O que é usável hoje é o template arquitetural. Se você constrói um agente de code-audit autônomo, teu pipeline mínimo viável deveria ser: agente scanner que propõe candidatos, agente debate que argumenta os dois lados de cada candidato, agente validation que roda testes concretos, agente dedupe que merge findings semanticamente-equivalentes, agente exploitation que produz PoCs pros sobreviventes. Os 88.45% no CyberGym é a barra a vencer se você reproduz isso. Os desconhecidos honestos: quais modelos subjacentes a Microsoft tá usando dentro do MDASH, quais são as taxas de sucesso por-stage individualmente, e quanto do número de headline é o pipeline versus a força do modelo.

Microsoft MDASH envia pipeline de 100+ agentes pra audit de código, 88.45% CyberGym

Mais notícias