El 7 de abril, Anthropic adelantó Claude Mythos y publicó un reporte red-team en red.anthropic.com con los números concretos. Dos semanas después la historia está aterrizando más fuerte en la prensa conforme las implicaciones calan. Mythos no se libera generalmente. Va a un conjunto limitado de socios de Project Glasswing — Amazon, Apple, Broadcom, Cisco, CrowdStrike, Linux Foundation, Microsoft, y Palo Alto Networks entre ellos, 40 organizaciones en total — más grupos de seguridad open source seleccionados incluyendo OpenSSF, Alpha-Omega, y la Apache Software Foundation. Anthropic comprometió $100M en créditos de uso para los socios industriales y $4M para los grupos open source.

Los benchmarks son la parte que cambió la conversación. En desarrollo de exploits JavaScript de Firefox, Opus 4.6 produjo 2 exploits funcionales en varios cientos de intentos, una tasa de éxito cercana a cero. Mythos produjo 181 exploits funcionales más control de registros en 29 intentos adicionales. En el corpus OSS-Fuzz (1.000 repositorios, unos 7.000 puntos de entrada de fuzz), Opus 4.6 y Sonnet 4.6 aterrizaron 150 a 175 crashes de nivel 1, alrededor de 100 de nivel 2, y uno solo de nivel 3 cada uno. Mythos aterrizó 595 crashes de nivel 1-2, un puñado de nivel 3 y 4, y 10 de nivel 5 representando secuestro total del flujo de control. La lista de vulnerabilidades de Anthropic incluye un bug SACK TCP de 27 años en OpenBSD que causa DoS remoto, una vulnerabilidad de codec H.264 de 16 años en FFmpeg (codebase de más de 20 años), un RCE no autenticado de 17 años en FreeBSD NFS (CVE-2026-4747), cadenas de escalada de privilegios en el kernel Linux combinando 2 a 4 vulnerabilidades, exploits de JIT heap-spray con escape de sandbox en todos los navegadores mayores, y debilidades en implementaciones de TLS, AES-GCM, y SSH. Anthropic dice que más del 99% de los hallazgos siguen sin parchear; menos del 1% son públicamente discutibles.

La economía es la parte para digerir. Encontrar el bug específico de OpenBSD de 27 años costó menos de $50 en compute. Correr una campaña de exploración de mil runs contra OpenBSD costó menos de $20.000 en total. Los hallazgos de FFmpeg costaron aproximadamente $10.000 combinados. El desarrollo de exploits N-day corre $1.000 a $2.000 por exploit funcional. Por primera vez, la curva de costo de encontrar vulnerabilidades críticas en software fundacional cayó por debajo de la curva de costo de parchar y desplegar correcciones. Los datos de validación respaldan esto: 89% de los 198 reportes Mythos revisados manualmente coincidieron con la evaluación de severidad de Claude exactamente, y 98% coincidieron dentro de un nivel de severidad. Esto no es teatro de vulnerabilidad alucinado. La respuesta de Anthropic es no lanzar el modelo generalmente: Mythos Preview se queda dentro de Project Glasswing, con disponibilidad general explícitamente descartada.

Tres cosas si envías o dependes de software con superficie de ataque real. Uno, la cifra de 99% sin parchear es una admisión tácita de que el throughput existente de divulgación coordinada no puede absorber lo que esta capacidad encuentra — si mantienes un paquete con historial de CVE, pon tu pipeline de respuesta en forma antes de que capacidades equivalentes aparezcan fuera de acceso preview. Dos, el éxito de Mythos en código antiguo (27, 17, 16 años) sugiere que el caso de auditoría asistida por IA no se trata de protocolos nuevos y sexys; se trata de los aburridos y maduros que nadie ha revisado en una década. Tres, la retención como seguridad es un precedente, no una solución. Anthropic ha elegido no lanzar este modelo generalmente, pero la curva de capacidad es la curva de capacidad. La brecha entre ahora y la disponibilidad masiva de modelos equivalentes es un período de gracia, no una garantía.