O UK's AI Security Institute testou o Claude Mythos Preview da Anthropic — um modelo de cibersegurança tão poderoso que a Anthropic não vai lançá-lo publicamente — e descobriu que ele tem sucesso em 73% dos desafios capture-the-flag de nível especializado que nenhuma IA conseguiu resolver antes de abril 2025. Mas no "The Last Ones", uma simulação de rede corporativa de 32 etapas que requer 20 horas de tempo de especialista humano, o Mythos teve sucesso apenas 3 de 10 vezes. O modelo pode descobrir vulnerabilidades zero-day e executar ataques multi-estágio autonomamente, capacidades que levaram a Anthropic a restringir o acesso a 40 organizações através do Project Glasswing em vez de um lançamento público.
Isso representa um cruzamento de limiar de capacidade que vem fermentando desde 2023, quando os melhores modelos "mal conseguiam completar tarefas cibernéticas de nível iniciante". Agora temos uma IA que pode fazer de forma automatizada o que leva dias para profissionais humanos — mas apenas em ambientes controlados sem defensores ativos ou endurecimento do mundo real. Os documentos vazados de março (expostos acidentalmente através de uma configuração incorreta de CMS) revelam que os próprios pesquisadores da Anthropic alertaram sobre "ataques que superam em muito os esforços dos defensores", causando uma queda de 4-7% nas ações de cibersegurança.
A avaliação do AISI revela limitações cruciais que o vazamento inicial não capturou: o Mythos funciona em condições de laboratório estéreis mas tem dificuldades contra defesas reais. Três comprometimentos de rede bem-sucedidos de dez tentativas, em um ambiente com "nenhum defensor ativo, nenhuma ferramenta defensiva, nenhuma consequência por disparar alertas", sugere que ainda estamos longe de hackers IA autônomos. O modelo se destaca em encontrar vulnerabilidades mas não consegue encadear operações complexas de forma confiável através de redes defendidas.
Para desenvolvedores, isso significa que auditoria de segurança assistida por IA está se tornando realidade enquanto ataques alimentados por IA permanecem majoritariamente teóricos. A taxa de sucesso de 30% contra redes simplificadas deveria preocupar equipes de segurança, mas a taxa de falha de 70% sugere que expertise humana continua insubstituível para operações sofisticadas.
