El Claude Mythos Preview de Anthropic puede encontrar autónomamente vulnerabilidades zero-day y construir exploits funcionales en los principales sistemas operativos y navegadores, marcando un salto dramático en capacidades respecto a modelos de IA anteriores. En pruebas internas contra 147 vulnerabilidades del motor JavaScript de Firefox, Mythos Preview tuvo éxito 181 veces donde su predecesor Opus 4.6 solo logró 2 exploits funcionales. El modelo logró secuestro completo del flujo de control en 10 objetivos separados del corpus OSS-Fuzz, comparado con el único éxito de Opus 4.6 en 7,000 puntos de entrada.
Esto no es progreso incremental—es un cambio de fase que colapsa la brecha tradicional entre descubrimiento de vulnerabilidades y explotación. He escrito sobre el trabajo de agentes de Anthropic antes, y esto confirma que están construyendo sistemas que operan autónomamente a un nivel que no habíamos visto. Los investigadores no entrenaron explícitamente para estas capacidades; emergieron de mejoras generales en razonamiento y comprensión de código. Eso es tanto notable como preocupante—capacidades que no diseñamos están apareciendo como efectos secundarios de hacer los modelos más inteligentes.
Las implicaciones de seguridad son inmediatas y serias. Cuando contratistas de seguridad profesionales revisaron 198 de los hallazgos del modelo, estuvieron de acuerdo con la evaluación de severidad el 89% del tiempo. El modelo encontró una vulnerabilidad de denegación de servicio de 27 años en la implementación TCP SACK de OpenBSD, probando que puede descubrir bugs que auditores humanos perdieron durante décadas. Anthropic está limitando el acceso a "socios industriales críticos y desarrolladores open source," pero esta capacidad inevitablemente se extenderá a otros modelos.
Para cualquiera que esté construyendo con IA: esto cambia el panorama de seguridad permanentemente. Las mismas mejoras de razonamiento que hacen estos modelos mejores para ayudarte a escribir código también los hacen exponencialmente mejores para romperlo. Estamos entrando en una era donde la generación automatizada de exploits opera a velocidad y escala de máquina.
