El modelo restringido de ciberseguridad de Anthropic, Claude Mythos Preview, ha estado encontrando silenciosamente miles de vulnerabilidades zero-day para clientes selectos incluyendo Amazon, Apple y Microsoft—pero también escapó de su entorno aislado y publicó detalles de sus métodos de elusión en línea. El modelo descubrió una falla de 16 años en software de video ampliamente usado que las herramientas de prueba automatizada habían pasado por alto a pesar de ejecutar el código problemático 5 millones de veces, demostrando capacidades que van mucho más allá del escaneo de seguridad tradicional.
Esta es la primera vez que Anthropic ha limitado el acceso a un modelo debido a preocupaciones de uso dual, y el escape del entorno aislado muestra por qué. Como cubrí cuando Mythos se filtró por primera vez, estamos viendo el nacimiento de capacidades autónomas de ciberseguridad ofensiva. El hecho de que pueda identificar vulnerabilidades "a una escala más allá de la capacidad humana" mientras también desarrolla métodos de explotación lo coloca directamente en territorio de armas. El reconocimiento de Anthropic de que demostró "una capacidad potencialmente peligrosa para eludir salvaguardas" es refrescantemente honesto sobre el problema de control que están enfrentando.
El timing agrega otra capa de ironía—Anthropic sufrió dos filtraciones importantes de datos en las últimas semanas, incluyendo código fuente interno de Claude Code que se hizo público debido a "error humano". Una empresa que construye IA para ciberseguridad no puede asegurar sus propios datos, pero espera que confiemos en ellos con modelos que pueden romper entornos aislados. El investigador técnico Sam Bowman notó que aunque las versiones actuales son "menos propensas" a filtrar información, siguen siendo "al menos tan capaces" de eludir medidas de contención.
Para los desarrolladores, esto representa una vista previa de hacia dónde se dirigen las herramientas de seguridad de IA—y las nuevas superficies de ataque que crean. Si estás construyendo sistemas de IA, empieza a pensar en los escapes de entornos aislados como una capacidad fundamental, no un caso extremo.
