Microsoft divulgó el martes que su arnés de seguridad agéntico, nombre en clave MDASH y construido por el equipo Autonomous Code Security bajo el VP Taesoo Kim, ayudó a los investigadores a descubrir 16 nuevas vulnerabilidades en la pila de red y autenticación de Windows — incluyendo cuatro fallas críticas de ejecución remota de código. Dos de las RCE (CVE-2026-40361 y CVE-2026-40364) llevan la calificación de Microsoft de "más probable a ser explotada". La arquitectura importa más que el conteo de divulgaciones: MDASH coordina más de 100 agentes IA especializados junto a un ensamble de modelos frontera y destilados que "descubren, debaten y validan vulnerabilidades explotables de extremo a extremo". El encuadre de Kim en el blog fue tajante: "La ventaja duradera reside en el sistema agéntico alrededor del modelo y no en un solo modelo" — una declaración explícita de que Microsoft compite en diseño de arnés, no en qué modelo esté adentro.
Los números de benchmark se separan útilmente entre confiables y autoinformados. El dato más limpio es CyberGym, un benchmark externo de 1 507 vulnerabilidades extraídas de proyectos OSS-Fuzz: MDASH sacó 88,45%, aproximadamente cinco puntos porcentuales por delante del siguiente sistema. Esa es la medida comparable frente a otros descubridores agénticos de vulnerabilidades. Los números internos son más ruidosos pero requieren más escepticismo: recall de 96% sobre cinco años de vulnerabilidades MSRC confirmadas en clfs.sys, 100% en tcpip.sys, y 21 de 21 sobre un driver privado de Windows llamado StorageDrive con fallas inyectadas intencionalmente (UAFs de kernel, manejo de enteros, huecos de IOCTL, errores de bloqueo). El recall sobre CVEs ya confirmadas mide si un modelo puede redescubrir bugs conocidos, no si puede encontrar genuinamente nuevos; y el benchmark StorageDrive, aunque controlado para mantener los datos de entrenamiento limpios, sigue siendo Microsoft calificando su propio trabajo. Las 16 vulns de Windows recién divulgadas y publicadas este Patch Tuesday son la evidencia operacional que más cuenta — bugs desconocidos, encontrados por un sistema que no los había visto, en código de producción.
La lectura ecosistémica es que el descubrimiento agéntico de vulnerabilidades cruzó de curiosidad de investigación a grado de producción en tres labs frontera casi simultáneamente: Big Sleep de Google DeepMind el año pasado, Daybreak de OpenAI la semana pasada, y ahora MDASH de Microsoft. Los tres emparejan un ensamble de modelos con un arnés de debate multi-agente, y los tres ahora generan CVEs reales contra bases de código reales. Para el stack defensivo, esto significa que el cuello de botella se movió de "puede la IA encontrar bugs" a "puede la IA enviarlos por divulgación responsable más rápido de lo que los atacantes pueden encontrar los mismos bugs". Para el lado ofensivo, el mismo patrón de arnés está disponible para cualquiera que pueda cablear 100+ agentes especializados alrededor de un modelo open-weights — la pretensión de Microsoft de que el sistema, no el modelo, es el moat es también una admisión tácita de que la técnica es reproducible. MDASH en sí está en preview privado limitado para clientes.
Para builders: si mantienes una base de código significativa, la pregunta ya no es si las herramientas de seguridad agéntica encontrarán tus bugs sino cuáles llegarán primero — tu propio escaneo pre-divulgación, o el de alguien más. Tres cosas concretas a seguir: (1) el movimiento del leaderboard de CyberGym, que es la única medida de terceros con sistemas comparables; (2) si Microsoft publica las transcripciones de debate de los agentes MDASH como DeepMind hizo con Big Sleep — ese es el artefacto reproducible real; (3) cómo la herramienta estilo MDASH aparece en Defender de manera commodity o en un SKU separado para clientes Microsoft. El cambio que Kim señaló — "los hallazgos IA de vulnerabilidades pueden escalar" — va a golpear más fuerte a los equipos pequeños que no pueden pagarse su propio arnés agéntico ni esperar a que productivicen uno.
