Le Mythos d'Anthropic réussit la première infiltration…, Zubnet AI Nouvelles

Le Claude Mythos Preview d'Anthropic est devenu le premier modèle d'IA à compléter un défi complexe d'infiltration réseau de 32 étapes, selon des tests indépendants menés par l'AI Security Institute du Royaume-Uni. Le modèle a réussi 3 tentatives sur 10 dans la simulation « The Last Ones », qui imite les attaques de réseaux corporatifs qui prendraient environ 20 heures aux professionnels humains pour être exécutées. Même les tentatives échouées ont atteint en moyenne 22 des 32 étapes requises, dépassant largement la moyenne de 16 étapes de Claude 4.6.

Il ne s'agit pas de compétences individuelles de piratage—Mythos performe de manière comparable aux modèles frontières récents comme GPT-5.4 et Claude Opus 4.6 sur les tâches de cybersécurité isolées, atteignant des taux de succès de 85% sur les défis capture-the-flag de base. La percée réside dans l'enchaînement d'attaques à travers plusieurs segments de réseau, une capacité qui transforme l'IA d'un script kiddie sophistiqué en quelque chose qui ressemble à un véritable testeur de pénétration. C'est pourquoi Anthropic a restreint Mythos aux « partenaires industriels critiques » au lieu de le libérer publiquement.

Mais l'engouement doit être calibré. Mythos échoue encore sur « Cooling Tower », une simulation de perturbation d'usine électrique en sept étapes, et les tests d'AISI ont utilisé un budget contraint de 100 millions de tokens. Les capacités cyber du modèle, bien que notables, représentent un progrès incrémental dans un paysage où les compétences de sécurité de l'IA montent régulièrement depuis que GPT-3.5 peinait avec des tâches de base en 2023.

Pour les développeurs qui construisent des outils de sécurité alimentés par l'IA, ceci signale que les capacités autonomes multi-étapes arrivent plus vite que prévu. Mais cela signifie aussi que vos hypothèses de sécurité concernant les assistants IA doivent être mises à jour—si Mythos peut enchaîner 22 étapes d'attaque, des modèles plus simples peuvent probablement gérer les phases de reconnaissance et d'accès initial qui comptent le plus pour les vrais attaquants.

Le Mythos d'Anthropic réussit la première infiltration réseau multi-étapes

Plus de nouvelles