Microsoft ने मंगलवार को बताया कि उसका agentic security harness — codename MDASH, जिसे VP Taesoo Kim के नेतृत्व में Autonomous Code Security टीम ने बनाया — researchers को Windows के networking और authentication stack में 16 नई vulnerabilities खोजने में मदद कर रहा है, जिनमें चार critical remote-code-execution खामियाँ शामिल हैं। चार RCEs में से दो (CVE-2026-40361 और CVE-2026-40364) पर Microsoft की "exploit होने की अधिक संभावना" रेटिंग है। architecture disclosure-गिनती से ज़्यादा मायने रखती है: MDASH 100 से अधिक specialized AI agents को frontier और distilled models के ensemble के साथ coordinate करता है, जो "discover, debate और validate" को end-to-end करते हैं। Kim की framing साफ़ थी: "स्थायी बढ़त मॉडल के चारों ओर के agentic system में है, किसी एक मॉडल में नहीं" — यह स्पष्ट है कि Microsoft harness डिज़ाइन पर compete कर रहा है, इस पर नहीं कि अंदर कौन-सा मॉडल है।

benchmark नंबर उपयोगी तरीक़े से दो भागों में बँटते हैं: भरोसेमंद और self-reported। सबसे साफ़ data point CyberGym है, OSS-Fuzz projects से लिया गया 1,507 vulnerabilities का external benchmark: MDASH ने 88.45% लिया, अगले सिस्टम से लगभग पाँच percentage points आगे। यही है अन्य agentic vulnerability खोजकर्ताओं के मुक़ाबले तुलनीय माप। internal नंबर ज़्यादा शोर वाले हैं लेकिन अधिक संदेह माँगते हैं: clfs.sys में पाँच साल की confirmed MSRC vulnerabilities पर 96% recall, tcpip.sys में 100%, और StorageDrive नाम के एक निजी Windows driver पर (जिसमें kernel UAFs, integer handling, IOCTL gaps, locking errors जैसी जान-बूझकर इंजेक्ट की गई 21 खामियाँ थीं) 21 में से 21। पहले से confirmed CVEs पर recall यह नापता है कि मॉडल ज्ञात bugs को फिर से ढूँढ़ सकता है या नहीं, यह नहीं कि वह असली नए bugs ढूँढ़ सकता है; और StorageDrive benchmark, हालाँकि training data को साफ़ रखने के लिए controlled है, अभी भी Microsoft अपने काम का खुद assessment है। इस Patch Tuesday में disclose की गई 16 नई Windows vulns ही सबसे मायने रखने वाला operational प्रमाण हैं — अज्ञात bugs, जो एक ऐसे system ने production code में ढूँढ़े जिसने उन्हें पहले नहीं देखा था।

ecosystem read यह है कि agentic vulnerability discovery research-curiosity से production-grade में लगभग एक साथ तीन frontier labs में पार हुई: पिछले साल Google DeepMind का Big Sleep, पिछले सप्ताह OpenAI का Daybreak, और अब Microsoft का MDASH। तीनों एक model ensemble को multi-agent debate harness के साथ pair करते हैं, और तीनों अब असली codebases के ख़िलाफ़ असली CVEs जनरेट कर रहे हैं। defensive security stack के लिए, इसका मतलब है कि bottleneck "क्या AI bugs ढूँढ़ सकता है" से बदलकर "क्या AI उन्हें responsible disclosure से उतनी जल्दी निकाल सकता है जितनी जल्दी attackers वही bugs ढूँढ़ लें" बन गया है। offensive side के लिए, वही harness pattern किसी भी ऐसे व्यक्ति को उपलब्ध है जो एक open-weights model के चारों ओर 100+ specialized agents जोड़ सकता है — Microsoft का दावा कि moat system है, model नहीं, यह भी एक मौन स्वीकृति है कि technique reproducible है। MDASH स्वयं ग्राहकों के लिए limited private preview में है।

builders के लिए: अगर तुम एक meaningful codebase maintain करते हो, सवाल अब यह नहीं है कि agentic security tools तुम्हारे bugs ढूँढ़ेंगे या नहीं, बल्कि कौन-सा पहले पहुँचेगा — तुम्हारा अपना pre-disclosure scanning, या किसी और का। तीन ठोस चीज़ें ट्रैक करने योग्य: (1) CyberGym leaderboard में हलचल, यह तुलनीय systems के साथ एकमात्र third-party माप है; (2) क्या Microsoft MDASH के agent-debate transcripts प्रकाशित करता है जैसा DeepMind ने Big Sleep के लिए किया था — वही असली reproducible artifact है; (3) MDASH-शैली का tooling Defender में commodity के रूप में आता है या Microsoft customers के लिए अलग SKU के रूप में। जो shift Kim ने flag किया — "AI vulnerability findings स्केल कर सकती हैं" — सबसे ज़्यादा उन छोटी teams पर पड़ेगा जो न अपना agentic harness afford कर सकती हैं और न ही किसी के productize होने का इंतज़ार कर सकती हैं।