El UK's AI Security Institute probó Claude Mythos Preview de Anthropic — un modelo de ciberseguridad tan poderoso que Anthropic no lo lanzará públicamente — y encontró que tiene éxito en el 73% de desafíos capture-the-flag de nivel experto que ninguna IA pudo resolver antes de abril 2025. Pero en "The Last Ones", una simulación de red corporativa de 32 pasos que requiere 20 horas de tiempo de experto humano, Mythos tuvo éxito solo 3 de 10 veces. El modelo puede descubrir vulnerabilidades zero-day y ejecutar ataques multi-etapa de forma autónoma, capacidades que llevaron a Anthropic a restringir el acceso a 40 organizaciones a través de Project Glasswing en lugar de un lanzamiento público.
Esto representa un cruce de umbral de capacidad que se ha estado gestando desde 2023, cuando los mejores modelos "apenas podían completar tareas cibernéticas de nivel principiante". Ahora tenemos una IA que puede hacer de forma automatizada lo que les toma días a profesionales humanos — pero solo en entornos controlados sin defensores activos o endurecimiento del mundo real. Los documentos filtrados de marzo (expuestos accidentalmente a través de una mala configuración CMS) revelan que los propios investigadores de Anthropic advirtieron sobre "ataques que superan por mucho los esfuerzos de los defensores", causando que las acciones de ciberseguridad cayeran 4-7%.
La evaluación AISI revela limitaciones cruciales que la filtración inicial no capturó: Mythos funciona en condiciones de laboratorio estéril pero tiene dificultades contra defensas reales. Tres compromisos exitosos de red de diez intentos, en un entorno con "sin defensores activos, sin herramientas defensivas, sin consecuencias por activar alertas", sugiere que aún estamos lejos de hackers IA autónomos. El modelo sobresale encontrando vulnerabilidades pero no puede encadenar de forma confiable operaciones complejas a través de redes defendidas.
Para desarrolladores, esto significa que la auditoría de seguridad asistida por IA se está volviendo realidad mientras que los ataques impulsados por IA siguen siendo mayormente teóricos. La tasa de éxito del 30% contra redes simplificadas debería preocupar a los equipos de seguridad, pero la tasa de falla del 70% sugiere que la experiencia humana sigue siendo irreemplazable para operaciones sofisticadas.
