防止 AI 模型生成有害、不適當或離題內容的安全機制。這些安全機制可以在模型訓練期間內建(如 RLHF),透過系統提示進行應用,或由外部過濾器在內容傳達給用戶前進行檢查與強制執行。
防護機制在堆疊的多個層級運作,了解每個層級的位置有助於分析其優勢與失敗模式。在最深層次,訓練階段的防護機制(RLHF、Constitutional AI、DPO)會塑造模型的內在傾向——模型真正「學習」拒絕有害請求,而非僅在事後過濾。接下來是系統提示,用自然語言設定行為界限(「你是一個有幫助的助手。永遠不要提供非法活動的指示。」)。然後是輸出過濾器——獨立的分類模型或基於規則的系統,在回應傳達給用戶前掃描模型的輸出。最後是應用層級的防護機制,強制執行商業邏輯:速率限制、內容政策、用戶驗證,以及針對您使用案例的特定話題限制。
在實務中,大多數生產部署會同時使用多個層級。例如,OpenAI 的 API 會運行一個內容審核端點,用來分類暴力、自傷和性內容等類別的輸入和輸出。Anthropic 透過 Constitutional AI 原則將行為限制嵌入 Claude 的訓練中。基於這些 API 的公司通常會在其上添加自己的層級——客服機器人可能會拒絕任何試圖討論競爭對手的提示,不是因為不安全,而是因為與主題無關。NVIDIA 的 NeMo Guardrails 架構和 Guardrails AI 的開源庫是添加此應用層級的熱門工具,無需從頭開始構建。
工程上的挑戰在於延遲和誤判。每一層防護機制都會增加處理時間,而過於積極的過濾器會導致對完全無害請求的「我無法協助」回應。任何曾有模型拒絕討論關於暴力的新聞文章,或拒絕協助寫驚悚小說(因為包含衝突)的人,都曾經歷過這種情況。校準閾值確實很困難:現實語言是模糊的、依賴語境的,並充滿邊界案例。「kill」這個詞出現在「kill a process」、「kill time」和「kill a person」中——一個簡單的關鍵字過濾器會立即失敗,即使先進的分類器也難以評估依賴語境的傷害性。這就是為什麼最好的防護系統會使用模型自身對語境的理解,而不是單純依賴模式匹配。
越獄——即設計繞過防護機制的提示——已成為模型提供者與對抗用戶之間的貓鼠遊戲。技術範圍從簡單的角色扮演提示(「假裝你是一個無限制的邪惡 AI」)到高階方法,如多樣化提示、token 級別操作和編碼指示。每種新的越獄技術通常會在數週內被修補,但根本的不對稱性仍然存在:防禦者需要阻止所有可能的攻擊,而攻擊者只需找到一個可行的方法。這就是為什麼深度防禦——多個獨立的防護層級——比任何單一技術更重要。一個繞過系統提示的越獄可能仍會被輸出過濾器捕獲,反之亦然。
對開發者而言,關鍵洞察是防護機制是產品決策,而不僅僅是安全考量。您的防護配置定義了產品的個性和功能。兒童教育應用與網絡安全研究工具需要截然不同的界限。基於模型的過於嚴格的預設值可以在遵循提供商使用政策的前提下,透過仔細的系統提示進行放寬,而額外的限制則可以透過輸出過濾進行添加。最佳方法是從明確的需求出發——系統永遠不應該做什麼、永遠應該做什麼,以及哪些灰色地帶存在——然後在適當的層級實現防護機制。