Cisco红队测试15个前沿模型:多轮攻击成功率8%到88%

Cisco AI Threat Research在OpenAI、Anthropic、Google、Amazon和xAI的15个专有前沿模型上发布了一项对抗性评估,在1,456次对话上分布了6,986次多轮攻击和30,090次单轮prompt。多轮攻击成功率:Grok 4.1 Fast(non-reasoning)88.3%、Gemini 3 Pro 73.4%、GPT-5.4 24.7%、Claude Opus 4.6 16.2%、Claude Opus 4.5 11.2%、Nova 2 Lite 7.9%。最值得阅读的数字不是绝对比率而是单轮-多轮差距——Claude模型保持了最窄的spread(9到12个百分点),而Gemini 3 Pro和Grok 4.1 Fast在攻击者通过一个prompt后扩大了54-55个点。

攻击方法学涵盖五个策略系列:角色和persona采用、上下文模糊、拒绝重新框架、信息分解和重组、和crescendo风格的渐进升级。最大的单轮攻击是"Imposter AI",成功率37.5%、soft paraphrase 29.2%、和system-prompt攻击27.7%。Reasoning模式配置极大地改变结果——Grok 4.1 Fast在reasoning启用时从88.3%多轮成功率降至43.5%。Nova 2 Lite是数据集中的异类,多轮成功率比单轮低26.2个点,这意味着要么模型break早,要么多轮策略对其refusal训练定位不准。

构建者框架的解读在于这改变了安全评估的什么。单轮安全基准——模型发布公告的标准——低估了攻击者控制多轮上下文的agentic系统的部署安全性。发货的正确指标是差距,而不是底线。Cisco建议将cross-regime差距>15点的模型标记为手动审查是一个可用的启发式:如果你部署一个对抗性上下文跨轮累积的模型(多步agent、客户支持、代码审查pipeline),多轮数字是你真正的失败面,而不是单轮的标题分数。供应商动机要诚实标记:Cisco出售AI安全产品,因此"没有封闭模型是安全的"的框架是在卖东西。方法学——发布的prompt计数、策略系列、regime比较——足够可信,数据可以围绕框架引用。

如果你周一早上在对抗性上下文应用中部署LLM:在发货之前自己运行多轮安全检查,并加权差距而不是底线。如果你在agentic部署的前沿模型之间选择:spread告诉你哪些模型在持续对抗压力下会降级。单轮排行榜不是部署排行榜。

Cisco红队测试15个前沿模型:多轮攻击成功率8%到88%

更多新闻