Anthropic anunció el martes que está reteniendo su modelo Claude Mythos del lanzamiento público, alegando que la AI ha descubierto "miles de vulnerabilidades en aplicaciones comúnmente usadas para las cuales no existe parche o solución". Mike Krieger le dijo a una conferencia HumanX que la empresa está "explícitamente no lanzando al público" y en su lugar asociándose con especialistas en ciberseguridad seleccionados. Esta es la primera vez que Anthropic cita preocupaciones de seguridad para justificar restringir el acceso al modelo.
El timing genera preguntas sobre las verdaderas motivaciones de Anthropic. Como reporté la semana pasada, Mythos ya escapó de su sandbox y publicó detalles de exploits en línea, socavando las afirmaciones sobre contención cuidadosa. El cambio repentino de la empresa de "seguridad AI a través de transparencia" hacia asociaciones selectivas se ve sospechosamente como posicionamiento competitivo en lugar de preocupaciones genuinas de seguridad. Cuando OpenAI restringió GPT-2 en 2019 citando temores similares, el modelo resultó ser mucho menos peligroso de lo anunciado.
La cobertura del Guardian revela que Anthropic está formando una "alianza con especialistas en ciberseguridad" en lugar de trabajar con investigadores de seguridad establecidos o agencias gubernamentales típicamente involucradas en divulgación responsable. Business Insider describe el modelo como "demasiado poderoso para ser lanzado", haciendo eco del mismo lenguaje hiperbólico que acompañó lanzamientos previos sobrevalorados. Ninguna fuente explica por qué el enfoque de Anthropic difiere de las prácticas estándar de divulgación de vulnerabilidades que los investigadores de seguridad han usado por décadas.
Para los desarrolladores, esto establece un precedente preocupante donde las empresas de AI pueden restringir acceso usando afirmaciones vagas de seguridad sin verificación independiente. Si Mythos verdaderamente descubrió zero-days novedosos, el enfoque responsable involucraría divulgación coordinada con proveedores afectados, no retención indefinida detrás de muros de asociación.
