Le Claude Mythos Preview d'Anthropic peut de façon autonome trouver des vulnérabilités zero-day et développer des exploits fonctionnels sur les principaux systèmes d'exploitation et navigateurs, marquant un bond spectaculaire par rapport aux modèles d'IA précédents. Lors des tests internes contre 147 vulnérabilités du moteur JavaScript de Firefox, Mythos Preview a réussi 181 fois là où son prédécesseur Opus 4.6 n'a géré que 2 exploits fonctionnels. Le modèle a réussi un détournement complet du flux de contrôle sur 10 cibles distinctes du corpus OSS-Fuzz, comparé au succès unique d'Opus 4.6 sur 7 000 points d'entrée.
Ce n'est pas du progrès incrémental—c'est un changement de phase qui fait s'effondrer l'écart traditionnel entre la découverte de vulnérabilités et l'exploitation. J'ai déjà écrit sur le travail d'agents d'Anthropic, et ceci confirme qu'ils développent des systèmes qui opèrent de façon autonome à un niveau qu'on n'a jamais vu. Les chercheurs n'ont pas explicitement entraîné pour ces capacités; elles ont émergé d'améliorations générales du raisonnement et de la compréhension du code. C'est à la fois remarquable et préoccupant—des capacités qu'on n'a pas conçues apparaissent comme effets secondaires de rendre les modèles plus intelligents.
Les implications de sécurité sont immédiates et sérieuses. Quand des contractants de sécurité professionnels ont révisé 198 des découvertes du modèle, ils ont été d'accord avec l'évaluation de la gravité 89% du temps. Le modèle a trouvé une vulnérabilité de déni de service vieille de 27 ans dans l'implémentation TCP SACK d'OpenBSD, prouvant qu'il peut découvrir des bugs que les auditeurs humains ont ratés pendant des décennies. Anthropic limite l'accès aux "partenaires industriels critiques et développeurs open source," mais cette capacité va inévitablement se répandre à d'autres modèles.
Pour quiconque développe avec l'IA : ceci change le paysage de sécurité de façon permanente. Les mêmes améliorations de raisonnement qui rendent ces modèles meilleurs pour vous aider à écrire du code les rendent aussi exponentiellement meilleurs pour le casser. On entre dans une ère où la génération automatisée d'exploits opère à la vitesse et l'échelle des machines.
