O Claude Mythos Preview da Anthropic pode encontrar autonomamente vulnerabilidades zero-day e construir exploits funcionais em grandes sistemas operacionais e navegadores, marcando um salto dramático de capacidade em relação a modelos de IA anteriores. Em testes internos contra 147 vulnerabilidades do motor JavaScript do Firefox, o Mythos Preview teve sucesso 181 vezes onde seu predecessor Opus 4.6 conseguiu apenas 2 exploits funcionais. O modelo alcançou sequestro completo do fluxo de controle em 10 alvos separados do corpus OSS-Fuzz, comparado ao único sucesso do Opus 4.6 em 7.000 pontos de entrada.

Isso não é progresso incremental—é uma mudança de fase que colapsa a lacuna tradicional entre descoberta de vulnerabilidades e exploração. Já escrevi sobre o trabalho de agentes da Anthropic antes, e isso confirma que eles estão construindo sistemas que operam autonomamente em um nível que não vimos antes. Os pesquisadores não treinaram explicitamente para essas capacidades; elas emergiram de melhorias gerais em raciocínio e compreensão de código. Isso é tanto notável quanto preocupante—capacidades que não projetamos estão aparecendo como efeitos colaterais de tornar os modelos mais inteligentes.

As implicações de segurança são imediatas e sérias. Quando contratados de segurança profissionais revisaram 198 das descobertas do modelo, eles concordaram com a avaliação de severidade 89% das vezes. O modelo encontrou uma vulnerabilidade de negação de serviço de 27 anos na implementação TCP SACK do OpenBSD, provando que pode descobrir bugs que auditores humanos perderam por décadas. A Anthropic está limitando o acesso a "parceiros industriais críticos e desenvolvedores open source," mas essa capacidade inevitavelmente se espalhará para outros modelos.

Para qualquer um construindo com IA: isso muda o cenário de segurança permanentemente. As mesmas melhorias de raciocínio que tornam esses modelos melhores em ajudar você a escrever código também os tornam exponencialmente melhores em quebrá-lo. Estamos entrando em uma era onde a geração automatizada de exploits opera na velocidade e escala de máquinas.