Claude Mythos: वो AI जो नेटवर्क तोड़ता है लेकिन अभी भी हैकर्स को बदल नहीं सकता

UK's AI Security Institute ने Anthropic के Claude Mythos Preview को टेस्ट किया — एक साइबर सिक्योरिटी मॉडल जो इतना शक्तिशाली है कि Anthropic इसे सार्वजनिक रूप से रिलीज़ नहीं करेगा — और पाया कि यह 73% एक्सपर्ट-लेवल capture-the-flag चुनौतियों में सफल होता है जिन्हें अप्रैल 2025 से पहले कोई AI हल नहीं कर सका था। लेकिन "The Last Ones" में, एक 32-स्टेप कॉर्पोरेट नेटवर्क सिमुलेशन जिसमें ह्यूमन एक्सपर्ट का 20 घंटे का समय लगता है, Mythos केवल 10 में से 3 बार सफल हुआ। यह मॉडल zero-day vulnerabilities खोज सकता है और मल्टी-स्टेज अटैक्स को autonomously execute कर सकता है, ऐसी क्षमताएं जिनकी वजह से Anthropic ने पब्लिक रिलीज़ की बजाय Project Glasswing के जरिए 40 संगठनों तक एक्सेस सीमित कर दिया।

यह एक capability threshold crossing को दर्शाता है जो 2023 से तैयार हो रहा था, जब सबसे अच्छे मॉडल "शुरुआती स्तर के साइबर कार्य मुश्किल से पूरे कर पाते थे।" अब हमारे पास एक AI है जो automated तरीके से वो काम कर सकता है जिसमें ह्यूमन प्रोफेशनल्स को दिन लगते हैं — लेकिन केवल नियंत्रित environments में जहां कोई active defenders या real-world hardening नहीं है। मार्च के लीक हुए documents (गलती से CMS misconfiguration के जरिए expose हुए) से पता चलता है कि Anthropic के खुद के researchers ने "attacks that far outpace the efforts of defenders" की चेतावनी दी थी, जिससे cybersecurity stocks में 4-7% की गिरावट आई।

AISI evaluation उन crucial limitations को reveal करता है जिन्हें initial leak ने capture नहीं किया था: Mythos sterile lab conditions में काम करता है लेकिन असली defenses के खिलाफ struggle करता है। "no active defenders, no defensive tooling, no consequences for tripping alerts" वाले environment में 10 attempts में से 3 successful network compromises बताते हैं कि हम अभी भी autonomous AI hackers से बहुत दूर हैं। यह मॉडल vulnerabilities खोजने में excel करता है लेकिन defended networks में complex operations को reliably chain नहीं कर सकता।

Developers के लिए, इसका मतलब है कि AI-assisted security auditing reality बन रहा है जबकि AI-powered attacks ज्यादातर theoretical ही रह जाते हैं। Simplified networks के against 30% success rate security teams को चिंतित करना चाहिए, लेकिन 70% failure rate बताती है कि sophisticated operations के लिए human expertise अभी भी irreplaceable है।

Claude Mythos: वो AI जो नेटवर्क तोड़ता है लेकिन अभी भी हैकर्स को बदल नहीं सकता

और समाचार