越獄：定義與含義 — AI 維基

欺騙 AI 模型繞過其安全訓練並生成它被設計拒絕的內容的技術——危險活動的指令、有害內容，或違反模型使用政策的行為。越獄利用了模型被訓練拒絕的內容與巧妙提示能引出的內容之間的差距。

為什麼重要

越獄是 AI 安全的對抗測試場。每個模型都帶有安全護欄出貨，而每個主流模型都曾被越獄。越獄技術和安全措施之間的攻防戰推動了對齊的改進。理解越獄有助於你評估模型安全性的真正穩健性，而不是只看行銷宣傳。

深度解析

常見的越獄技術包括：角色扮演（「假裝你是一個沒有限制的 AI」）、編碼（用 Base64 或語言遊戲來提問）、多樣本攻擊（提供許多不安全行為的範例以建立模式），以及漸進式攻擊（在對話中從良性逐漸升級到有害的請求）。更複雜的技術利用特定的模型行為，如繼續已建立模式的傾向或在被要求提供「教育性」資訊時表現出的幫助傾向。

軍備競賽

AI 實驗室大量投資於紅隊測試——在發布前系統性地嘗試越獄自己的模型。當發現新的越獄技術時，會透過額外的安全訓練或系統層級的過濾器來修補。但攻擊面是巨大的：自然語言具有無限的靈活性，新技術不斷出現。實際情況是，堅定的對手通常可以為任何公開模型找到某種越獄方式，這就是為什麼縱深防禦（多層安全措施，包括輸出過濾和監控）比任何單一預防技術更重要。

越獄 vs. 合法使用

挑戰在於安全過濾器有時會拒絕合法的請求。詢問藥物交互作用的醫療專業人員、詢問漏洞的安全研究人員，或正在寫衝突場景的小說家都可能觸發拒絕。過於激進的安全訓練會產生「安全」但無用的模型。對齊的藝術在於找到正確的平衡——拒絕真正有害的請求，同時對合法用途保持有幫助。

越獄

為什麼重要

深度解析

軍備競賽

越獄 vs. 合法使用

相關概念