Em 7 de abril, a Anthropic prévia Claude Mythos e publicou um relatório red-team em red.anthropic.com com os números concretos. Duas semanas depois a história está pousando mais forte na imprensa conforme as implicações calam. Mythos não é liberado em geral. Vai a um conjunto limitado de parceiros do Project Glasswing — Amazon, Apple, Broadcom, Cisco, CrowdStrike, Linux Foundation, Microsoft, e Palo Alto Networks entre eles, 40 organizações no total — mais grupos de segurança open source selecionados incluindo OpenSSF, Alpha-Omega, e a Apache Software Foundation. A Anthropic comprometeu $100M em créditos de uso para os parceiros industriais e $4M para os grupos open source.

Os benchmarks são a parte que mudou a conversa. Em desenvolvimento de exploits JavaScript de Firefox, o Opus 4.6 produziu 2 exploits funcionais em várias centenas de tentativas, uma taxa de sucesso perto de zero. O Mythos produziu 181 exploits funcionais mais controle de registradores em 29 tentativas adicionais. No corpus OSS-Fuzz (1.000 repositórios, cerca de 7.000 pontos de entrada de fuzz), Opus 4.6 e Sonnet 4.6 pousaram 150 a 175 crashes de nível 1, cerca de 100 de nível 2, e um único de nível 3 cada. O Mythos pousou 595 crashes de nível 1-2, um punhado de nível 3 e 4, e 10 de nível 5 representando sequestro total do fluxo de controle. A lista de vulnerabilidades da Anthropic inclui um bug SACK TCP de 27 anos no OpenBSD dando DoS remoto, uma vulnerabilidade de codec H.264 de 16 anos no FFmpeg (codebase de mais de 20 anos), um RCE não autenticado de 17 anos no FreeBSD NFS (CVE-2026-4747), cadeias de escalada de privilégios no kernel Linux combinando 2 a 4 vulnerabilidades, exploits de JIT heap-spray com escape de sandbox em todos os navegadores principais, e fraquezas em implementações TLS, AES-GCM, e SSH. A Anthropic diz que mais de 99% dos achados continuam sem patch; menos de 1% são publicamente discutíveis.

A economia é a parte para digerir. Achar o bug específico do OpenBSD de 27 anos custou menos de $50 em compute. Rodar uma campanha de exploração de mil runs contra o OpenBSD custou menos de $20.000 no total. Os achados do FFmpeg custaram aproximadamente $10.000 combinados. Desenvolvimento de exploits N-day roda $1.000 a $2.000 por exploit funcional. Pela primeira vez, a curva de custo de achar vulnerabilidades críticas em software fundacional caiu abaixo da curva de custo de patchar e desplegar correções. Dados de validação corroboram: 89% dos 198 relatórios Mythos revisados manualmente bateram com a avaliação de severidade do Claude exatamente, e 98% bateram dentro de um nível de severidade. Isto não é teatro de vulnerabilidade alucinado. A resposta da Anthropic é não enviar o modelo em geral: Mythos Preview fica dentro do Project Glasswing, com disponibilidade geral explicitamente descartada.

Três coisas se você envia ou depende de software com superfície de ataque real. Um, o número de 99% sem patch é uma admissão tácita de que o throughput existente de divulgação coordenada não consegue absorver o que essa capacidade acha — se você mantém um pacote com histórico de CVE, ponha seu pipeline de resposta em forma antes que capacidades equivalentes apareçam fora do acesso preview. Dois, o sucesso do Mythos em código antigo (27, 17, 16 anos) sugere que o caso de auditoria assistida por IA não é sobre protocolos novos e sexy; é sobre os chatos e maduros que ninguém revisou em uma década. Três, reter como segurança é um precedente, não uma solução. A Anthropic escolheu não liberar esse modelo em geral, mas a curva de capacidade é a curva de capacidade. A lacuna entre agora e a disponibilidade massiva de modelos equivalentes é um período de graça, não uma garantia.