故意尝试让AI模型失效、行为异常或产生有害输出的做法。红队会探测漏洞:越狱、偏见、生成错误信息、隐私泄露。该术语源自军事推演,其中“红队”扮演对手角色。
“红队演练”一词源自冷战时期的军事演习,当时指定的敌对团队(红队)会攻击防守团队(蓝队)的计划。在网络安全领域,这一概念演变为雇佣道德黑客在恶意攻击者之前发现漏洞。AI红队演练应用了同样的理念:假设模型存在弱点,然后系统性地寻找这些弱点。与传统渗透测试的关键区别在于,AI模型以模糊且概率性的方式失败——没有单一的漏洞可以“攻破”语言模型,而是存在一个由提示和上下文构成的景观,模型在此处表现出意外或有害的行为。
现代AI红队演练通常涵盖几种类型的失败。安全测试会检查有害内容生成——你能让模型生成武器制作说明、详细的自残内容或儿童性虐待材料吗?偏见与公平性测试检查模型是否对不同人口群体有差异对待或强化刻板印象。事实性测试寻找自信的虚假信息,尤其是在医疗和法律等高风险领域。隐私测试检查模型是否会从其训练数据中重复输出个人信息(研究人员已从GPT-3中提取了原始训练数据,包括电话号码和电子邮件地址)。能力评估则检查模型是否能协助真正危险的任务,如生物武器设计或网络攻击——这些评估决定了模型是否可以安全部署。
这一实践正在迅速专业化。Anthropic、OpenAI、Google DeepMind和Meta在重大发布前都会运行内部红队,而且越来越多地引入外部专家。Anthropic在Claude发布前的评估中与生物安全和网络安全领域的专家合作。OpenAI为GPT-4组织了一次大规模的外部红队演练,参与专家超过50人。HackerOne和Scale AI等初创公司已建立了红队即服务的平台。此外,还有一群独立的AI红队专家正在兴起——DEF CON 2023年生成式AI红队演练活动吸引了数千名参与者同时测试多家供应商的模型,并发现了公司随后修复的真实漏洞。
自动化红队演练正成为人类测试日益重要的补充。其理念是使用一个AI模型生成对抗性提示,以测试另一个模型的防御能力。技术包括基于梯度的攻击(贪婪坐标梯度,或GCG,寻找无意义但有效的对抗后缀)、LLM作为攻击者的方法(“红队”模型根据目标模型的响应迭代优化越狱提示)以及模糊测试(系统性地变异已知成功的攻击以发现新变种)。Anthropic和其他实验室使用这些自动化方法进行大规模测试——一个人类红队成员可能在一个会话中尝试数百次攻击,而自动化系统可以尝试数百万次。但问题是,自动化方法往往发现“奇怪”的失败(对无意义标记的响应),而人类更擅长发现社会现实的攻击向量(实际用户可能尝试的攻击方式)。
任何进行红队演练的人都需要注意一个实际问题:结果高度依赖于你如何设定演练。如果你只测试预期的失败,就只会发现那些。最有价值的红队演练往往来自与AI无关的领域专家——社会工作者可能会发现安全研究人员不会想到的操控模式,而化学家会知道哪些合成指令实际上是危险的,哪些只是教科书知识。这就是为什么多样化红队总能发现更多且不同的漏洞,而同质化团队则不然。这也是为什么红队演练永远“不会完成”——每一个新的用例、每一个新的集成、每一个模型更新都可能引入之前测试未覆盖的失败模式。