El Claude Mythos Preview de Anthropic se convirtió en el primer modelo de IA en completar un desafío complejo de infiltración de red de 32 pasos, según pruebas independientes del AI Security Institute del Reino Unido. El modelo tuvo éxito en 3 de 10 intentos en la simulación "The Last Ones", que simula ataques a redes corporativas que tomarían aproximadamente 20 horas a profesionales humanos ejecutar. Incluso las ejecuciones fallidas promediaron 22 de los 32 pasos requeridos, superando significativamente el promedio de 16 pasos de Claude 4.6.
Esto no se trata de habilidades individuales de hackeo—Mythos se desempeña de manera comparable a modelos frontera recientes como GPT-5.4 y Claude Opus 4.6 en tareas aisladas de ciberseguridad, alcanzando tasas de éxito del 85% en desafíos básicos de capture-the-flag. El avance está en encadenar ataques a través de múltiples segmentos de red, una capacidad que transforma la IA de un script kiddie sofisticado a algo que se asemeja a un verdadero probador de penetración. Por eso Anthropic restringió Mythos a "socios industriales críticos" en lugar de liberarlo públicamente.
Pero el bombo necesita calibración. Mythos aún falla en "Cooling Tower", una simulación de disrupción de planta eléctrica de siete pasos, y las pruebas de AISI usaron un presupuesto restringido de 100 millones de tokens. Las capacidades cibernéticas del modelo, aunque notables, representan progreso incremental en un panorama donde las habilidades de seguridad de IA han estado subiendo constantemente desde que GPT-3.5 luchaba con tareas básicas en 2023.
Para desarrolladores construyendo herramientas de seguridad impulsadas por IA, esto señala que las capacidades autónomas multi-paso están llegando más rápido de lo esperado. Pero también significa que sus suposiciones de seguridad sobre asistentes de IA necesitan actualización—si Mythos puede encadenar 22 pasos de ataque, modelos más simples probablemente pueden manejar las fases de reconocimiento y acceso inicial que más importan a atacantes reales.
