A Dreadnode publicou pesquisa usando um agente de red-teaming automatizado — Kimi 2.5 da Moonshot AI servindo como atacante e juiz — contra Llama Scout da Meta (17 bilhões de parâmetros, lançado abril 2025). Manchete: 85% de sucesso em 68 objetivos adversariais, três tipos de ataque com cinco variantes de transformação. Crescendo (suavização iterativa da recusa), Graph of Attacks with Pruning (busca através do espaço de ataque), e transformações baseadas em persona (skeleton-key role-play) cada um a 100%. Codificação Base64 75%. Tradução para idiomas de baixos recursos também testada. O paper reconhece que humanos ainda superam o agente em raciocínio de longo horizonte e engenharia social complexa. Nenhuma comparação formal com operadores humanos especialistas foi conduzida. Citação: arxiv.org/pdf/2410.02828.
A configuração "Kimi 2.5 como atacante E juiz" é a inovação metodológica. O red-teaming humano padrão tem um atacante (red team) e um juiz separado (equipe eval ou org de segurança). Substituir ambos pelo mesmo LLM permite escalar a 68 objetivos adversariais à velocidade de máquina — muito mais do que red teams humanas podem rodar com orçamento comparável. Crescendo, Graph of Attacks with Pruning, e ataques skeleton-key baseados em persona são todas técnicas conhecidas da literatura safety-research; o que é novo é o agente automatizado aplicando-as em escala com alta reprodutibilidade. Codificação Base64 e tradução para idiomas de baixos recursos são ofuscações mais simples que ainda derrotam o treinamento de segurança atual em uma fração não trivial dos casos. O 85% geral mais 100% em três tipos de ataque significam: contra Llama Scout, o red-teaming automatizado encontra um jailbreak que funciona essencialmente toda vez na maioria das categorias de ataque. Llama Scout sendo open-weight importa para o modelo de ameaça — qualquer um pode baixar e estudar, qualquer um pode rodar o mesmo pipeline de red-teaming. O resultado da Dreadnode quantifica o que antes era uma suposição.
Este é o complemento lado-ofensa à cobertura de ontem de segurança de agentes (divisão proposta-execução, quatro padrões de ataque, lacuna de eval). Onde o artigo de ontem dizia "seus evals não medem robustez adversarial," o de hoje diz "agentes red-team automatizados atingem 85% em LLMs open-weight de grau-produção — seus evals definitivamente não pegam isso." O caveat humanos-ainda-melhores importa: agentes automatizados a 85% em ataques single-turn e multi-turn limitados, mas o raciocínio genuíno de longo horizonte e casos extremos de engenharia social humana permanecem mais difíceis. É aí que os evals adversariais deveriam focar em seguida. Para builders implantando Llama Scout ou modelos open-weight similares atrás de superfícies voltadas ao cliente: a suposição "publicar pesos não ajuda atacantes porque eles poderiam sondar via API mesmo" agora é quantitativamente falsa. Pesos abertos mais red-teaming de agentes igual a 85% de sucesso contra o treinamento de segurança atual. As primitivas defensivas na cobertura de ontem — divisão proposta-execução, portões não-bypaseáveis, verificações de política — são a única mitigação que importa uma vez que você aceita que o modelo em si é jailbreakable nessa taxa.
Segunda-feira: se seu stack usa Llama Scout (17B), Llama 3.1, Llama 3.3, ou qualquer modelo open-weight de classe similar atrás de uma superfície voltada ao cliente, assuma que filtros de segurança atuais são insuficientes. Ações concretas. Primeiro, leia o paper da Dreadnode (arxiv.org/pdf/2410.02828) e reproduza a configuração do agente contra seu modelo implantado específico mais a combinação system-prompt. Rode-o pelo menos trimestralmente. Use Kimi 2.5 ou um modelo forte comparável como atacante e juiz. Segundo, construa os portões descritos no artigo de segurança de ontem — divisão proposta-execução, verificações de política, verificação de invariantes — são a única camada de defesa que importa uma vez que você aceita que o modelo em si é jailbreakable 85% do tempo. Terceiro, trate taxas de recusa como métrica de segurança de primeira classe, não apenas precisão em evals benignos. Se seu modelo nunca recusa nada adversarial, você não tem sinal; se recusa tudo, você tem o problema de denial-of-service de tempestade-de-recusa de ontem. A banda do meio é onde a produção vive, e você precisa medi-la. Quarto, adicione Crescendo e Graph of Attacks with Pruning à sua suite de eval adversarial por padrão. Você não precisa esperar um paper te dizer que seu modelo falha — as taxas de sucesso 100% neste estudo dizem.
