Anthropic anuncia Claude Mythos Preview, un modelo que accidentalmente se volvió excelente en ciberseguridad mientras se entrenaba con código. La compañía afirma que tiene un desempeño "en general tan bueno como un profesional humano identificando bugs" y puede encadenar múltiples vulnerabilidades en exploits sofisticados. En pruebas, encontró un bug de crash de 27 años en OpenBSD y vulnerabilidades de escalación de privilegios en Linux. En lugar de lanzarlo públicamente, Anthropic está lanzando Project Glasswing — asociándose con organizaciones que mantienen código de infraestructura crítica.

Esto representa el dilema clásico de IA de doble uso cristalizándose en tiempo real. Modelos que mejoran dramáticamente en código significa que también mejoran dramáticamente en romper código. Lo notable aquí no es solo el salto de capacidad, sino la respuesta de Anthropic: acceso controlado en lugar de lanzamiento abierto. "Encontramos más bugs en las últimas semanas que los que encontré en el resto de mi vida combinado", dice un investigador — eso es progreso notable o preocupante dependiendo de quién tiene acceso primero.

El video no aborda la tensión obvia en el enfoque de Anthropic. Están esencialmente creando una ventaja de seguridad temporal para socios selectos mientras potencialmente aceleran una carrera armamentista de seguridad IA. ¿Cuánto falta para que capacidades similares emerjan de otros laboratorios? ¿Qué pasa cuando actores estatales desarrollen modelos equivalentes? La estrategia "defensores primero" asume coordinación que rara vez existe en la práctica. Para desarrolladores, esto señala que la investigación de seguridad asistida por IA está pasando de experimental a esencial — pero las herramientas que podrían proteger tu código podrían no estar disponibles para ti pronto.