Anthropic anuncia Claude Mythos Preview, um modelo que acidentalmente ficou excelente em cibersegurança durante treinamento em código. A empresa afirma que performa "de forma geral tão bem quanto um profissional humano identificando bugs" e pode encadear múltiplas vulnerabilidades em exploits sofisticados. Em testes, encontrou um bug de crash de 27 anos no OpenBSD e vulnerabilidades de escalação de privilégios no Linux. Em vez de lançar publicamente, Anthropic está lançando Project Glasswing — fazendo parcerias com organizações que mantêm código de infraestrutura crítica.
Isso representa o dilema clássico de IA de duplo uso se cristalizando em tempo real. Modelos ficando dramaticamente melhores em código significa que também estão ficando dramaticamente melhores em quebrar código. O que é notável aqui não é só o salto de capacidade, mas a resposta da Anthropic: acesso controlado em vez de lançamento aberto. "Encontramos mais bugs nas últimas semanas do que encontrei no resto da minha vida combinado", diz um pesquisador — isso é progresso notável ou preocupante dependendo de quem tem acesso primeiro.
O vídeo não aborda a tensão óbvia na abordagem da Anthropic. Eles estão essencialmente criando uma vantagem de segurança temporária para parceiros selecionados enquanto potencialmente aceleram uma corrida armamentista de segurança IA. Quanto tempo até capacidades similares emergirem de outros laboratórios? O que acontece quando atores estatais desenvolverem modelos equivalentes? A estratégia "defensores primeiro" assume coordenação que raramente existe na prática. Para desenvolvedores, isso sinaliza que pesquisa de segurança assistida por IA está passando de experimental para essencial — mas as ferramentas que poderiam proteger seu código podem não estar disponíveis para você tão cedo.