Microsoft a divulgué mardi que son harnais de sécurité agentique, nom de code MDASH et bâti par l'équipe Autonomous Code Security sous le VP Taesoo Kim, a aidé des chercheurs à découvrir 16 nouvelles vulnérabilités dans la pile réseau et authentification de Windows — dont quatre failles critiques d'exécution de code à distance. Deux des RCE (CVE-2026-40361 et CVE-2026-40364) portent la cote « plus susceptible d'être exploitée » de Microsoft. L'architecture compte plus que le décompte de divulgations : MDASH coordonne plus de 100 agents IA spécialisés aux côtés d'un ensemble de modèles frontières et distillés qui « découvrent, débattent et valident des vulnérabilités exploitables de bout en bout ». Le cadrage de Kim dans le billet est tranché : « L'avantage durable réside dans le système agentique autour du modèle plutôt que dans un seul modèle » — une déclaration explicite que Microsoft compétitionne sur le design du harnais, pas sur quel modèle se trouve à l'intérieur.

Les chiffres de benchmark se séparent utilement entre fiables et autodéclarés. Le point de données le plus propre est CyberGym, un benchmark externe de 1 507 vulnérabilités tiré de projets OSS-Fuzz : MDASH a obtenu 88,45 %, environ cinq points de pourcentage devant le système suivant. C'est la mesure comparable contre d'autres découvreurs agentiques de vulnérabilités. Les chiffres internes sont plus bruyants mais demandent plus de scepticisme : rappel de 96 % sur cinq ans de vulnérabilités MSRC confirmées dans clfs.sys, 100 % dans tcpip.sys, et 21 sur 21 sur un driver Windows privé appelé StorageDrive avec des failles injectées intentionnellement (UAF kernel, gestion d'entiers, trous IOCTL, erreurs de verrouillage). Le rappel sur des CVE déjà confirmées mesure si un modèle peut redécouvrir des bugs connus, pas s'il peut en trouver de vraiment nouveaux ; et le benchmark StorageDrive, bien que contrôlé pour garder les données d'entraînement propres, reste Microsoft qui note son propre travail. Les 16 vulns Windows nouvellement divulguées publiées ce Patch Tuesday sont la preuve opérationnelle qui compte le plus — bugs inconnus, trouvés par un système qui ne les avait jamais vus, dans du code de production.

La lecture écosystémique est que la découverte agentique de vulnérabilités est passée de curiosité-recherche à grade-production dans trois labos frontières presque simultanément : Big Sleep de Google DeepMind l'an dernier, Daybreak d'OpenAI la semaine dernière, et maintenant MDASH de Microsoft. Tous les trois associent un ensemble de modèles à un harnais de débat multi-agents, et tous les trois génèrent maintenant de vrais CVE contre du vrai code. Pour le stack défensif, ça signifie que le goulet d'étranglement est passé de « est-ce que l'IA peut trouver des bugs » à « est-ce que l'IA peut les faire passer par la divulgation responsable plus vite que les attaquants peuvent trouver les mêmes bugs ». Pour le côté offensif, le même pattern de harnais est disponible pour quiconque peut câbler 100+ agents spécialisés autour d'un modèle open-weights — la prétention de Microsoft que le système, pas le modèle, est le moat est aussi une admission tacite que la technique est reproductible. MDASH lui-même est en aperçu privé limité pour les clients.

Pour les builders : si tu maintiens une codebase significative, la question n'est plus de savoir si les outils de sécurité agentique trouveront tes bugs, mais lesquels y arriveront en premier — ton propre scan pré-divulgation, ou celui de quelqu'un d'autre. Trois choses concrètes à suivre : (1) le mouvement du leaderboard CyberGym, qui est la seule mesure tierce avec des systèmes comparables ; (2) si Microsoft publie les transcriptions de débat des agents MDASH comme DeepMind l'a fait pour Big Sleep — c'est l'artefact reproductible réel ; (3) comment l'outillage style MDASH apparaît dans Defender en commodité ou dans un SKU séparé pour les clients Microsoft. Le glissement que Kim a signalé — « les découvertes IA de vulnérabilités peuvent passer à l'échelle » — va frapper le plus fort les petites équipes qui ne peuvent ni s'offrir leur propre harnais agentique ni se permettre d'attendre qu'on en productise un.