Le UK's AI Security Institute a testé Claude Mythos Preview d'Anthropic — un modèle de cybersécurité si puissant qu'Anthropic ne le publiera pas — et a découvert qu'il réussit 73% des défis capture-the-flag de niveau expert qu'aucune IA n'avait pu résoudre avant avril 2025. Mais dans « The Last Ones », une simulation de réseau corporatif en 32 étapes nécessitant 20 heures de temps d'expert humain, Mythos n'a réussi que 3 fois sur 10. Le modèle peut découvrir des vulnérabilités zero-day et exécuter des attaques multi-étapes de façon autonome, des capacités qui ont poussé Anthropic à restreindre l'accès à 40 organisations via Project Glasswing au lieu d'une publication publique.

Ceci représente un franchissement de seuil de capacité qui mijote depuis 2023, quand les meilleurs modèles « pouvaient à peine compléter des tâches cyber de niveau débutant ». Maintenant on a une IA qui peut faire de façon automatisée ce qui prend des jours aux professionnels humains — mais seulement dans des environnements contrôlés sans défenseurs actifs ou durcissement du monde réel. Les documents divulgués de mars (exposés accidentellement via une mauvaise configuration CMS) révèlent que les propres chercheurs d'Anthropic ont averti d'« attaques qui dépassent largement les efforts des défenseurs », causant une chute de 4-7% des actions de cybersécurité.

L'évaluation AISI révèle des limitations cruciales que la fuite initiale n'avait pas capturées : Mythos fonctionne dans des conditions de labo stériles mais peine contre de vraies défenses. Trois compromissions de réseau réussies sur dix tentatives, dans un environnement avec « aucun défenseur actif, aucun outil défensif, aucune conséquence pour déclencher des alertes », suggère qu'on est encore loin des hackers IA autonomes. Le modèle excelle à trouver des vulnérabilités mais ne peut pas enchaîner de façon fiable des opérations complexes à travers des réseaux défendus.

Pour les développeurs, ceci signifie que l'audit de sécurité assisté par IA devient réalité tandis que les attaques alimentées par IA restent surtout théoriques. Le taux de réussite de 30% contre des réseaux simplifiés devrait inquiéter les équipes de sécurité, mais le taux d'échec de 70% suggère que l'expertise humaine reste irremplaçable pour les opérations sophistiquées.