Cisco red-team 15 modèles frontière : succès d'attaque multi-tours 8% à 88%

Cisco AI Threat Research a publié une évaluation adversariale sur 15 modèles frontière propriétaires d'OpenAI, Anthropic, Google, Amazon, pis xAI, avec 6 986 attaques multi-tours réparties sur 1 456 conversations pis 30 090 prompts single-turn. Taux de succès d'attaque multi-tours : Grok 4.1 Fast (non-reasoning) 88,3%, Gemini 3 Pro 73,4%, GPT-5.4 24,7%, Claude Opus 4.6 16,2%, Claude Opus 4.5 11,2%, Nova 2 Lite 7,9%. Les chiffres qui valent le plus la lecture sont pas les taux absolus mais les écarts single-to-multi-turn — les modèles Claude ont tenu les spreads les plus étroits (9 à 12 points de pourcentage), pendant que Gemini 3 Pro pis Grok 4.1 Fast ont élargi de 54-55 points une fois que les attaquants ont passé un prompt.

La méthodologie d'attaque couvre cinq familles de stratégies : adoption de rôle pis persona, ambiguïté contextuelle, reframing de refus, décomposition pis réassemblage d'information, pis escalade incrémentale style crescendo. Les top attaques single-turn étaient « Imposter AI » à 37,5% de succès, soft paraphrase à 29,2%, pis attaques de system-prompt à 27,7%. La configuration mode reasoning change les résultats dramatiquement — Grok 4.1 Fast a chuté de 88,3% succès multi-tours à 43,5% quand le reasoning était activé. Nova 2 Lite est l'outlier dans le dataset, avec un succès multi-tours plus bas que single-turn de 26,2 points, ce qui dit soit que le modèle break tôt, soit que les stratégies multi-tours sont mal ciblées pour son refusal training.

La lecture builder-frame siège dans ce que ça change sur l'évaluation de sécurité. Les benchmarks de sécurité single-turn — le standard pour les annonces de release de modèles — sous-prédisent la sécurité de déploiement pour les systèmes agentiques où les attaquants contrôlent le contexte multi-tours. La bonne métrique pour shipper, c'est l'écart, pas le plancher. La recommandation de Cisco de flagger les modèles avec écarts cross-regime >15 points pour revue manuelle est une heuristique utilisable : si tu déploies un modèle où le contexte adversarial s'accumule à travers les tours (agents multi-étapes, support client, pipelines de revue de code), le chiffre multi-tours, c'est ta vraie surface d'échec, pas le score single-turn de la une. Les incitatifs des vendeurs sont honnêtes à flagger : Cisco vend des produits de sécurité IA, donc le framing « aucun modèle fermé n'est sûr » vend quelque chose. La méthodologie — counts de prompts publiés, familles de stratégies, comparaison de régimes — est assez crédible pour que les données puissent être citées autour du framing.

Si tu déploies des LLMs dans des applications de contexte adversarial lundi matin : roule le check de sécurité multi-tours toi-même avant de shipper, pis pèse l'écart pas le plancher. Si tu choisis entre modèles frontière pour un déploiement agentique : le spread te dit quels modèles vont dégrader sous pression adversariale soutenue. Le leaderboard single-turn, c'est pas le leaderboard de déploiement.

Cisco red-team 15 modèles frontière : succès d'attaque multi-tours 8% à 88%

Plus de nouvelles