Microsoft MDASH ship pipeline 100+ agents pour audit code, 88,45% CyberGym

Microsoft a introduit MDASH cette semaine — une plateforme agentique multi-modèle qui utilise plus de 100 agents AI spécialisés organisés en pipeline multi-stage pour auditer du code à grande échelle. Note le framing : pas "trouver des vulnérabilités AI" (le headline InfoQ est trompeur) mais "trouver des vulnérabilités code traditionnelles en utilisant des agents AI." Stages : scanning, debate, validation, déduplication, exploitation — chacun handled par un rôle d'agent spécialisé différent plutôt qu'un single agent faisant tout séquentiellement. Model-agnostic par design. Pour les builders qui travaillent sur SecOps autonome ou code review agent-driven, la taxonomie architecturale ici c'est le takeaway, peu importe l'access à la plateforme elle-même.

Les chiffres sont concrets. Sur CyberGym, le benchmark public de 1 507 vulnérabilités réelles, MDASH score **88,45%**. Sur les case sets historiques internes de Microsoft : **96% recall** sur les vulnérabilités Windows Common Log File System driver (`clfs.sys`), **100% recall** sur les cas TCP/IP stack (`tcpip.sys`). Les codebases testés sont Windows, Hyper-V et Azure — gros systèmes C et C++ matures, lourdement audités où trouver des CVEs novel est difficile et le recall est la métrique pertinente. La limitation reportée qui passe honnêtement : risque d'orchestration, spécifiquement "blast radius d'une single misconfigured permission boundary." 100+ agents qui se parlent entre eux et avec des source trees, c'est beaucoup de trust boundary à garder clean, et la plateforme l'acknowledge.

Lecture écosystème : c'est la thèse agent-infrastructure appliquée à la recherche security, et le pattern architectural est reproductible sans access à l'implémentation spécifique de Microsoft. Le split "agent spécialisé par stage de pipeline" — scan, debate, validate, dedupe, exploit — c'est un template utile pour n'importe quel système multi-agent qui hit le plafond context-explosion de single-agent. Paire naturellement avec les autres agent infra de ce mois : composition 3-hook-point du middleware Genkit de Google, pyramide mémoire 4-tier de Tencent, le travail Dreadnode red-team agent plus tôt. La forme c'est la même — break la loop d'agent en stages spécialisés composables au lieu d'une loop monolithique qui essaie de tout faire. La contribution spécifique de Microsoft c'est les stages *debate* et *validation* explicites, que la plupart des harness d'agent publiés collapsent ensemble.

Lundi matin : MDASH lui-même c'est "internal Microsoft + limited private preview avec selected customers" — pas de repo GitHub, pas de licence, pas d'access public pour la plupart des builders. Ce qui est utilisable aujourd'hui c'est le template architectural. Si tu builds un agent de code-audit autonome, ton pipeline minimum viable devrait être : agent scanner qui propose des candidates, agent debate qui argue les deux côtés de chaque candidate, agent validation qui roule des tests concrets, agent dedupe qui merge les findings sémantiquement-équivalents, agent exploitation qui produit des PoCs pour les survivors. Les 88,45% CyberGym c'est la barre à battre si tu reproduis ça. Les unknowns honnêtes : quels modèles sous-jacents Microsoft utilise dans MDASH, quels sont les taux de succès par-stage individuellement, et combien du chiffre headline est le pipeline versus la force du modèle.

Microsoft MDASH ship pipeline 100+ agents pour audit code, 88,45% CyberGym

Plus de nouvelles