Dreadnode 發了一份研究:用一個自動化紅隊 agent —— 攻擊方和評判方都是 Moonshot AI 的 Kimi 2.5 —— 去打 Meta 的 Llama Scout(2025 年 4 月發的 17B 模型)。核心數字:在 68 個對抗目標上,85% 成功率,三類攻擊、五種 transform 變體。Crescendo(對 refusal 迭代式軟化)、Graph of Attacks with Pruning(在攻擊空間裡做搜索)、persona-based 變換(skeleton-key 角色扮演)三類各自 100%。Base64 編碼 75%。把 prompt 翻成低資源語言這種 transform 也試過。Paper 裡 acknowledge:在長視野推理和複雜社工場景上,人類仍然比 agent 強。沒有跟資深人類操作員做正式對比。引用:arxiv.org/pdf/2410.02828。
「Kimi 2.5 同時當攻擊方和評判方」這一招,才是方法論上的新東西。標準的人類紅隊是攻擊方(紅隊)和評判方(eval team / safety org)分開的。讓同一個 LLM 同時扮兩個角色,你就可以把 68 個對抗目標在機器尺度上拉完 —— 遠遠超過同等預算下人類紅隊能跑的量。Crescendo、Graph of Attacks with Pruning、persona-based 的 skeleton-key 攻擊,本身都是安全研究文獻裡早就有的技術;新的是「自動化 agent 把這些技術放大到 scale 並且可重複地跑」。Base64 編碼和翻譯成低資源語種是更樸素的混淆,但它們在當前 safety training 下,仍然能 defeat 非平凡比例的 case。85% 的整體 + 三類攻擊各自 100% 的意思是:對 Llama Scout,自動化紅隊在大部分攻擊類別上,基本上每次都能找到一個能跑通的 jailbreak。Llama Scout 是開源權重,這對威脅模型很關鍵 —— 任何人都能下載來研究,任何人都能跑這套紅隊 pipeline。Dreadnode 的結果,把過去停留在「假設」的東西量化下來了。
這是昨天那篇 agent 安全(proposal-execution 拆分、四種攻擊模式、eval 缺口)的攻擊側對照。昨天那篇講「你的 eval 沒在量對抗韌性」;今天這篇講「自動化紅隊 agent 對生產級開源權重 LLM 是 85% 命中,你的 eval 當然抓不到」。「人類還更強」那條 caveat 也重要:自動化 agent 在 single-turn 和 bounded multi-turn 攻擊上達到 85%,但真正的長視野推理 + 複雜人類社工 edge case,仍然更難。這就是對抗 eval 下一步應該 focus 的地方。對在 customer-facing 表面後面部署 Llama Scout 或同類開源權重模型的 builder 來說:「發布權重不會幫攻擊者,反正他們也能走 API 探測」這條假設,現在被量化地證偽了。開源權重 + agent 紅隊 = 當前 safety training 下 85% 成功。昨天那篇裡講的防禦原語 —— proposal-execution 拆分、不可繞開的 gate、policy 檢查 —— 一旦你接受「模型本身在這個 rate 上 jailbreakable」這個前提,就是唯一還有意義的 mitigation 層。
週一上手:如果你的 stack 在 customer-facing 表面後面用的是 Llama Scout(17B)、Llama 3.1、Llama 3.3,或者任何同檔的開源權重模型,就假設當前的 safety filter 不夠。具體動作。第一,把 Dreadnode 的 paper(arxiv.org/pdf/2410.02828)讀一遍,把這套 agent 用在你自己部署的具體模型 + system prompt 組合上 reproduce 一下。至少每個季度跑一次。攻擊方和評判方都用 Kimi 2.5 或者同級別 strong 模型。第二,把昨天那篇裡講的 gate 搭起來 —— proposal-execution 拆分、policy 檢查、invariant 校驗 —— 一旦你接受「模型本身有 85% 的 jailbreak 機率」,這是唯一有意義的防禦層。第三,把 refusal rate 當成一線 safety metric,不只是看 benign eval 的準確率。如果你的模型對任何對抗輸入都不 refuse,你就沒訊號;如果它什麼都 refuse,你就有昨天講的「refusal storm」denial-of-service 問題。生產線住在中間那條帶子上,你得能量它。第四,預設在你對抗 eval 裡加上 Crescendo 和 Graph of Attacks with Pruning。你不用等 paper 告訴你「你的模型有問題」 —— 這份研究裡那幾個 100% 的成功率已經在說了。
