常見的越獄技術包括:角色扮演(「假裝你是一個沒有限制的 AI」)、編碼(用 Base64 或語言遊戲來提問)、多樣本攻擊(提供許多不安全行為的範例以建立模式),以及漸進式攻擊(在對話中從良性逐漸升級到有害的請求)。更複雜的技術利用特定的模型行為,如繼續已建立模式的傾向或在被要求提供「教育性」資訊時表現出的幫助傾向。
AI 實驗室大量投資於紅隊測試——在發布前系統性地嘗試越獄自己的模型。當發現新的越獄技術時,會透過額外的安全訓練或系統層級的過濾器來修補。但攻擊面是巨大的:自然語言具有無限的靈活性,新技術不斷出現。實際情況是,堅定的對手通常可以為任何公開模型找到某種越獄方式,這就是為什麼縱深防禦(多層安全措施,包括輸出過濾和監控)比任何單一預防技術更重要。
挑戰在於安全過濾器有時會拒絕合法的請求。詢問藥物交互作用的醫療專業人員、詢問漏洞的安全研究人員,或正在寫衝突場景的小說家都可能觸發拒絕。過於激進的安全訓練會產生「安全」但無用的模型。對齊的藝術在於找到正確的平衡——拒絕真正有害的請求,同時對合法用途保持有幫助。