Microsoft MDASH envía pipeline de 100+ agentes para audit de código, 88.45% CyberGym

Microsoft introdujo MDASH esta semana — una plataforma agéntica multi-modelo que usa más de 100 agentes AI especializados organizados como pipeline multi-stage para auditar código a escala. Nota el framing: no "encontrar vulnerabilidades AI" (el headline de InfoQ es engañoso) sino "encontrar vulnerabilidades de código tradicionales usando agentes AI." Stages: scanning, debate, validación, deduplicación, exploitation — cada uno manejado por un rol de agente especializado diferente en lugar de un único agente haciendo todo secuencialmente. Model-agnostic por diseño. Para builders trabajando en SecOps autónomo o code review agent-driven, la taxonomía arquitectónica aquí es el takeaway, sin importar el acceso a la plataforma misma.

Los números son concretos. En CyberGym, el benchmark público de 1,507 vulnerabilidades reales, MDASH puntúa **88.45%**. En los case sets históricos internos de Microsoft: **96% recall** en vulnerabilidades del Windows Common Log File System driver (`clfs.sys`), **100% recall** en casos del TCP/IP stack (`tcpip.sys`). Los codebases probados son Windows, Hyper-V y Azure — sistemas C y C++ grandes, maduros, fuertemente auditados donde encontrar CVEs novedosos es difícil y el recall es la métrica significativa. La limitación reportada que pasa honestamente: riesgo de orquestación, específicamente "blast radius de un único permission boundary mal configurado." 100+ agentes hablándose entre sí y con source trees es mucho trust boundary que mantener limpio, y la plataforma lo reconoce.

Lectura ecosistema: esta es la tesis agent-infrastructure aplicada a investigación de seguridad, y el patrón arquitectónico es reproducible sin acceso a la implementación específica de Microsoft. El split "agente especializado por stage de pipeline" — scan, debate, validate, dedupe, exploit — es una plantilla útil para cualquier sistema multi-agente que choca con el techo de context-explosion de single-agent. Empareja naturalmente con la otra agent infra de este mes: composición 3-hook-point del middleware Genkit de Google, pirámide de memoria 4-tier de Tencent, el trabajo de Dreadnode red-team agent anterior. La forma es la misma — romper el loop del agente en stages especializados componibles en lugar de un loop monolítico tratando de hacer todo. La contribución específica de Microsoft son los stages explícitos *debate* y *validation*, que la mayoría de harness de agente publicados colapsan juntos.

Lunes por la mañana: MDASH mismo es "internal Microsoft + limited private preview con selected customers" — sin repo GitHub, sin licencia, sin acceso público para la mayoría de builders. Lo usable hoy es la plantilla arquitectónica. Si construyes un agente de code-audit autónomo, tu pipeline mínimo viable debería ser: agente scanner que propone candidatos, agente debate que argumenta ambos lados de cada candidato, agente validation que corre tests concretos, agente dedupe que une findings semánticamente-equivalentes, agente exploitation que produce PoCs para los supervivientes. Los 88.45% en CyberGym es la barra a vencer si reproduces esto. Los desconocidos honestos: qué modelos subyacentes está usando Microsoft dentro de MDASH, cuáles son las tasas de éxito por-stage individualmente, y cuánto del número de headline es el pipeline versus la fuerza del modelo.

Microsoft MDASH envía pipeline de 100+ agentes para audit de código, 88.45% CyberGym

Más noticias