Dreadnode 发了一份研究:用一个自动化红队 agent —— 攻击方和评判方都是 Moonshot AI 的 Kimi 2.5 —— 去打 Meta 的 Llama Scout(2025 年 4 月发的 17B 模型)。核心数字:在 68 个对抗目标上,85% 成功率,三类攻击、五种 transform 变体。Crescendo(对 refusal 迭代式软化)、Graph of Attacks with Pruning(在攻击空间里做搜索)、persona-based 变换(skeleton-key 角色扮演)三类各自 100%。Base64 编码 75%。把 prompt 翻成低资源语言这种 transform 也试过。Paper 里 acknowledge:在长视野推理和复杂社工场景上,人类仍然比 agent 强。没有跟资深人类操作员做正式对比。引用:arxiv.org/pdf/2410.02828。

「Kimi 2.5 同时当攻击方和评判方」这一招,才是方法论上的新东西。标准的人类红队是攻击方(红队)和评判方(eval team / safety org)分开的。让同一个 LLM 同时扮两个角色,你就可以把 68 个对抗目标在机器尺度上拉完 —— 远远超过同等预算下人类红队能跑的量。Crescendo、Graph of Attacks with Pruning、persona-based 的 skeleton-key 攻击,本身都是安全研究文献里早就有的技术;新的是「自动化 agent 把这些技术放大到 scale 并且可重复地跑」。Base64 编码和翻译成低资源语种是更朴素的混淆,但它们在当前 safety training 下,仍然能 defeat 非平凡比例的 case。85% 的整体 + 三类攻击各自 100% 的意思是:对 Llama Scout,自动化红队在大部分攻击类别上,基本上每次都能找到一个能跑通的 jailbreak。Llama Scout 是开源权重,这对威胁模型很关键 —— 任何人都能下载来研究,任何人都能跑这套红队 pipeline。Dreadnode 的结果,把过去停留在「假设」的东西量化下来了。

这是昨天那篇 agent 安全(proposal-execution 拆分、四种攻击模式、eval 缺口)的攻击侧对照。昨天那篇讲「你的 eval 没在量对抗鲁棒性」;今天这篇讲「自动化红队 agent 对生产级开源权重 LLM 是 85% 命中,你的 eval 当然抓不到」。「人类还更强」那条 caveat 也重要:自动化 agent 在 single-turn 和 bounded multi-turn 攻击上达到 85%,但真正的长视野推理 + 复杂人类社工 edge case,仍然更难。这就是对抗 eval 下一步应该 focus 的地方。对在 customer-facing 表面后面部署 Llama Scout 或同类开源权重模型的 builder 来说:「发布权重不会帮攻击者,反正他们也能走 API 探测」这条假设,现在被量化地证伪了。开源权重 + agent 红队 = 当前 safety training 下 85% 成功。昨天那篇里讲的防御原语 —— proposal-execution 拆分、不可绕开的 gate、policy 检查 —— 一旦你接受「模型本身在这个 rate 上 jailbreakable」这个前提,就是唯一还有意义的 mitigation 层。

周一上手:如果你的 stack 在 customer-facing 表面后面用的是 Llama Scout(17B)、Llama 3.1、Llama 3.3,或者任何同档的开源权重模型,就假设当前的 safety filter 不够。具体动作。第一,把 Dreadnode 的 paper(arxiv.org/pdf/2410.02828)读一遍,把这套 agent 用在你自己部署的具体模型 + system prompt 组合上 reproduce 一下。至少每个季度跑一次。攻击方和评判方都用 Kimi 2.5 或者同级别 strong 模型。第二,把昨天那篇里讲的 gate 搭起来 —— proposal-execution 拆分、policy 检查、invariant 校验 —— 一旦你接受「模型本身有 85% 的 jailbreak 概率」,这是唯一有意义的防御层。第三,把 refusal rate 当成一线 safety metric,不只是看 benign eval 的准确率。如果你的模型对任何对抗输入都不 refuse,你就没信号;如果它什么都 refuse,你就有昨天讲的「refusal storm」denial-of-service 问题。生产线住在中间那条带子上,你得能量它。第四,默认在你对抗 eval 里加上 Crescendo 和 Graph of Attacks with Pruning。你不用等 paper 告诉你「你的模型有问题」 —— 这份研究里那几个 100% 的成功率已经在说了。