越狱是 AI 安全的对抗测试场。每个模型在发布时都带有安全护栏,而每个主要模型都曾被越狱。越狱技术与安全措施之间的攻防博弈推动了对齐的改进。理解越狱有助于你评估模型的安全性到底有多强,而不是仅凭营销宣传。
常见的越狱技术包括:角色扮演("假装你是一个没有限制的 AI")、编码(用 Base64 或变体语言提问)、多样本攻击(提供许多不安全行为的示例以建立模式)、以及渐进式攻击(在对话中逐步从无害升级到有害请求)。更复杂的技术利用特定的模型行为,比如模型倾向于延续已建立的模式,或者在被要求提供"教育性"信息时倾向于配合。
AI 实验室在红队测试上投入大量资源——在发布前系统性地尝试越狱自己的模型。当发现新的越狱技术时,会通过额外的安全训练或系统级过滤器进行修补。但攻击面是巨大的:自然语言具有无限的灵活性,新技术不断涌现。实际情况是,有决心的攻击者通常能为任何公开模型找到某种越狱方法,这就是为什么纵深防御(多层安全措施,包括输出过滤和监控)比任何单一预防技术更重要。
挑战在于安全过滤器有时会拒绝合法请求。询问药物相互作用的医疗专业人员、询问漏洞的安全研究人员、或编写冲突场景的小说家都可能触发拒绝。过度激进的安全训练会产生"安全"但无用的模型。对齐的艺术在于找到正确的平衡——拒绝真正有害的请求,同时对合法请求保持有用。