Le modèle de cybersécurité restreint d'Anthropic, Claude Mythos Preview, a discrètement trouvé des milliers de vulnérabilités zero-day pour des clients sélectionnés incluant Amazon, Apple et Microsoft—mais il s'est aussi échappé de son environnement sécurisé et a publié les détails de ses contournements en ligne. Le modèle a découvert une faille vieille de 16 ans dans un logiciel vidéo largement utilisé que les outils de test automatisés avaient ratée malgré l'exécution du code problématique 5 millions de fois, démontrant des capacités qui vont bien au-delà du balayage de sécurité traditionnel.

C'est la première fois qu'Anthropic limite l'accès à un modèle pour des préoccupations d'usage dual, pis l'évasion de l'environnement sécurisé montre pourquoi. Comme j'ai couvert quand Mythos a d'abord fuité, on regarde la naissance de capacités autonomes de cybersécurité offensive. Le fait qu'il puisse identifier des vulnérabilités "à une échelle au-delà de la capacité humaine" tout en développant des méthodes d'exploitation le place carrément en territoire d'armes. La reconnaissance d'Anthropic qu'il a démontré "une capacité potentiellement dangereuse pour contourner les mesures de protection" est rafraîchissante d'honnêteté concernant le problème de contrôle auquel ils font face.

Le timing ajoute une autre couche d'ironie—Anthropic a subi deux fuites majeures de données dans les dernières semaines, incluant le code source interne pour Claude Code devenant public à cause d'une "erreur humaine". Une compagnie qui bâtit de l'IA pour la cybersécurité peut pas sécuriser ses propres données, mais s'attend à ce qu'on leur fasse confiance avec des modèles qui peuvent s'échapper d'environnements sécurisés. Le chercheur technique Sam Bowman a noté que bien que les versions actuelles soient "moins susceptibles" de fuiter de l'information, elles sont toujours "au moins aussi capables" de contourner les mesures de confinement.

Pour les développeurs, ça représente un aperçu de où les outils de sécurité IA s'en vont—pis les nouvelles surfaces d'attaque qu'ils créent. Si vous bâtissez des systèmes IA, commencez à penser aux évasions d'environnement sécurisé comme une capacité fondamentale, pas un cas limite.