Cisco紅隊測試15個前沿模型:多輪攻擊成功率8%到88%

Cisco AI Threat Research在OpenAI、Anthropic、Google、Amazon和xAI的15個專有前沿模型上發布了一項對抗性評估,在1,456次對話上分佈了6,986次多輪攻擊和30,090次單輪prompt。多輪攻擊成功率:Grok 4.1 Fast(non-reasoning)88.3%、Gemini 3 Pro 73.4%、GPT-5.4 24.7%、Claude Opus 4.6 16.2%、Claude Opus 4.5 11.2%、Nova 2 Lite 7.9%。最值得閱讀的數字不是絕對比率而是單輪-多輪差距——Claude模型保持了最窄的spread(9到12個百分點),而Gemini 3 Pro和Grok 4.1 Fast在攻擊者通過一個prompt後擴大了54-55個點。

攻擊方法學涵蓋五個策略系列:角色和persona採用、上下文模糊、拒絕重新框架、資訊分解和重組、和crescendo風格的漸進升級。最大的單輪攻擊是「Imposter AI」,成功率37.5%、soft paraphrase 29.2%、和system-prompt攻擊27.7%。Reasoning模式配置極大地改變結果——Grok 4.1 Fast在reasoning啟用時從88.3%多輪成功率降至43.5%。Nova 2 Lite是資料集中的異類,多輪成功率比單輪低26.2個點,這意味著要麼模型break早,要麼多輪策略對其refusal訓練定位不準。

建構者框架的解讀在於這改變了安全評估的什麼。單輪安全基準——模型發布公告的標準——低估了攻擊者控制多輪上下文的agentic系統的部署安全性。發貨的正確指標是差距,而不是底線。Cisco建議將cross-regime差距>15點的模型標記為手動審查是一個可用的啟發式:如果你部署一個對抗性上下文跨輪累積的模型(多步agent、客戶支援、程式碼審查pipeline),多輪數字是你真正的失敗面,而不是單輪的標題分數。供應商動機要誠實標記:Cisco出售AI安全產品,因此「沒有封閉模型是安全的」的框架是在賣東西。方法學——發布的prompt計數、策略系列、regime比較——足夠可信,資料可以圍繞框架引用。

如果你週一早上在對抗性上下文應用中部署LLM:在發貨之前自己執行多輪安全檢查,並加權差距而不是底線。如果你在agentic部署的前沿模型之間選擇:spread告訴你哪些模型在持續對抗壓力下會降級。單輪排行榜不是部署排行榜。

Cisco紅隊測試15個前沿模型:多輪攻擊成功率8%到88%

更多新聞