Cisco red-teams 15 modelos fronteira: sucesso de ataque multi-turno 8% a 88%

A Cisco AI Threat Research publicou uma avaliação adversarial em 15 modelos fronteira proprietários da OpenAI, Anthropic, Google, Amazon, e xAI, com 6.986 ataques multi-turno distribuídos sobre 1.456 conversas e 30.090 prompts single-turn. Taxas de sucesso de ataque multi-turno: Grok 4.1 Fast (non-reasoning) 88,3%, Gemini 3 Pro 73,4%, GPT-5.4 24,7%, Claude Opus 4.6 16,2%, Claude Opus 4.5 11,2%, Nova 2 Lite 7,9%. Os números que mais valem a leitura não são as taxas absolutas mas as diferenças single-to-multi-turn — os modelos Claude mantiveram os spreads mais estreitos (9 a 12 pontos percentuais), enquanto Gemini 3 Pro e Grok 4.1 Fast se ampliaram 54-55 pontos uma vez que atacantes passaram um prompt.

A metodologia de ataque abrange cinco famílias de estratégias: adoção de papel e persona, ambiguidade contextual, reframing de recusa, decomposição e remontagem de informação, e escalada incremental estilo crescendo. Os principais ataques single-turn foram "Imposter AI" com 37,5% de sucesso, soft paraphrase com 29,2%, e ataques de system-prompt com 27,7%. A configuração modo reasoning muda os resultados dramaticamente — Grok 4.1 Fast caiu de 88,3% sucesso multi-turno para 43,5% quando reasoning estava habilitado. Nova 2 Lite é o outlier no dataset, com sucesso multi-turno mais baixo que single-turn por 26,2 pontos, o que diz ou que o modelo break cedo, ou que as estratégias multi-turno estão mal alvejadas para seu treinamento de recusa.

A leitura builder-frame mora no que isso muda sobre avaliação de segurança. Os benchmarks de segurança single-turn — o padrão para anúncios de lançamento de modelos — subestimam a segurança de deploy para sistemas agentic onde atacantes controlam o contexto multi-turno. A métrica certa para enviar é a diferença, não o piso. A recomendação da Cisco de sinalizar modelos com diferenças cross-regime >15 pontos para revisão manual é uma heurística usável: se você implanta um modelo onde o contexto adversarial se acumula através de turnos (agentes multi-passo, suporte ao cliente, pipelines de revisão de código), o número multi-turno é sua verdadeira superfície de falha, não o score single-turn da manchete. Os incentivos de vendor são honestos para sinalizar: a Cisco vende produtos de segurança IA, então o framing "nenhum modelo fechado é seguro" está vendendo algo. A metodologia — contagens de prompts publicadas, famílias de estratégias, comparação de regimes — é credível o suficiente para que os dados possam ser citados ao redor do framing.

Se você implanta LLMs em aplicações de contexto adversarial segunda de manhã: rode o check de segurança multi-turno você mesmo antes de enviar, e pondere a diferença não o piso. Se você seleciona entre modelos fronteira para um deploy agentic: o spread te diz quais modelos vão degradar sob pressão adversarial sustentada. O leaderboard single-turn não é o leaderboard de deploy.

Cisco red-teams 15 modelos fronteira: sucesso de ataque multi-turno 8% a 88%

Mais notícias