越狱：定义与含义 — AI 维基

诱使 AI 模型绕过其安全训练，生成本应拒绝的内容的技术——包括危险活动的指南、有害内容或违反模型使用政策的行为。越狱利用了模型被训练拒绝的内容与巧妙提示能够引出的内容之间的差距。

为什么重要

越狱是 AI 安全的对抗测试场。每个模型在发布时都带有安全护栏，而每个主要模型都曾被越狱。越狱技术与安全措施之间的攻防博弈推动了对齐的改进。理解越狱有助于你评估模型的安全性到底有多强，而不是仅凭营销宣传。

深度解析

常见的越狱技术包括：角色扮演（"假装你是一个没有限制的 AI"）、编码（用 Base64 或变体语言提问）、多样本攻击（提供许多不安全行为的示例以建立模式）、以及渐进式攻击（在对话中逐步从无害升级到有害请求）。更复杂的技术利用特定的模型行为，比如模型倾向于延续已建立的模式，或者在被要求提供"教育性"信息时倾向于配合。

军备竞赛

AI 实验室在红队测试上投入大量资源——在发布前系统性地尝试越狱自己的模型。当发现新的越狱技术时，会通过额外的安全训练或系统级过滤器进行修补。但攻击面是巨大的：自然语言具有无限的灵活性，新技术不断涌现。实际情况是，有决心的攻击者通常能为任何公开模型找到某种越狱方法，这就是为什么纵深防御（多层安全措施，包括输出过滤和监控）比任何单一预防技术更重要。

越狱与合法使用

挑战在于安全过滤器有时会拒绝合法请求。询问药物相互作用的医疗专业人员、询问漏洞的安全研究人员、或编写冲突场景的小说家都可能触发拒绝。过度激进的安全训练会产生"安全"但无用的模型。对齐的艺术在于找到正确的平衡——拒绝真正有害的请求，同时对合法请求保持有用。

越狱

为什么重要

深度解析

军备竞赛

越狱与合法使用

相关概念