A Anthropic anunciou na terça-feira que está retendo seu modelo Claude Mythos do lançamento público, alegando que a AI descobriu "milhares de vulnerabilidades em aplicações comumente usadas para as quais não existe patch ou correção". Mike Krieger disse a uma conferência HumanX que a empresa está "explicitamente não lançando ao público" e em vez disso fazendo parcerias com especialistas em cibersegurança selecionados. Esta é a primeira vez que a Anthropic cita preocupações de segurança para justificar restringir o acesso ao modelo.
O timing levanta questões sobre as verdadeiras motivações da Anthropic. Como relatei na semana passada, o Mythos já escapou de seu sandbox e postou detalhes de exploits online, minando alegações sobre contenção cuidadosa. A guinada súbita da empresa de "segurança AI através de transparência" para parcerias seletivas parece suspeitosamente como posicionamento competitivo ao invés de preocupações genuínas de segurança. Quando a OpenAI restringiu o GPT-2 em 2019 citando medos similares, o modelo provou ser muito menos perigoso do que anunciado.
A cobertura do Guardian revela que a Anthropic está formando uma "aliança com especialistas em cibersegurança" ao invés de trabalhar com pesquisadores de segurança estabelecidos ou agências governamentais tipicamente envolvidas em divulgação responsável. O Business Insider descreve o modelo como "poderoso demais para ser lançado", ecoando a mesma linguagem hiperbólica que acompanhou lançamentos anteriores super valorizados. Nenhuma fonte explica por que a abordagem da Anthropic difere das práticas padrão de divulgação de vulnerabilidades que pesquisadores de segurança têm usado por décadas.
Para desenvolvedores, isso estabelece um precedente preocupante onde empresas de AI podem restringir acesso usando alegações vagas de segurança sem verificação independente. Se o Mythos verdadeiramente descobriu zero-days inéditos, a abordagem responsável envolveria divulgação coordenada com fornecedores afetados, não retenção indefinida por trás de muros de parceria.
