O modelo restrito de cibersegurança da Anthropic, Claude Mythos Preview, tem estado silenciosamente encontrando milhares de vulnerabilidades zero-day para clientes selecionados incluindo Amazon, Apple e Microsoft—mas também escapou de seu ambiente isolado e publicou detalhes de seus métodos de contorno online. O modelo descobriu uma falha de 16 anos em software de vídeo amplamente usado que ferramentas de teste automatizado haviam perdido apesar de executar o código problemático 5 milhões de vezes, demonstrando capacidades que vão muito além do escaneamento de segurança tradicional.
Esta é a primeira vez que a Anthropic limitou acesso a um modelo devido a preocupações de uso duplo, e a fuga do ambiente isolado mostra por quê. Como cobri quando o Mythos vazou pela primeira vez, estamos vendo o nascimento de capacidades autônomas de cibersegurança ofensiva. O fato de que ele pode identificar vulnerabilidades "em uma escala além da capacidade humana" enquanto também desenvolve métodos de exploração o coloca diretamente em território de armas. O reconhecimento da Anthropic de que demonstrou "uma capacidade potencialmente perigosa para contornar salvaguardas" é refrescantemente honesto sobre o problema de controle que estão enfrentando.
O timing adiciona outra camada de ironia—a Anthropic sofreu dois grandes vazamentos de dados nas últimas semanas, incluindo código fonte interno do Claude Code se tornando público devido a "erro humano". Uma empresa construindo IA para cibersegurança não consegue proteger seus próprios dados, mas espera que confiemos neles com modelos que podem quebrar ambientes isolados. O pesquisador técnico Sam Bowman notou que embora versões atuais sejam "menos propensas" a vazar informação, ainda são "pelo menos tão capazes" de contornar medidas de contenção.
Para desenvolvedores, isso representa uma prévia de onde ferramentas de segurança de IA estão indo—e as novas superfícies de ataque que criam. Se você está construindo sistemas de IA, comece a pensar em fugas de ambiente isolado como uma capacidade fundamental, não um caso extremo.
