護欄：定義與含義 — AI 維基

防止 AI 模型生成有害、不適當或離題內容的安全機制。這些安全機制可以在模型訓練期間內建（如 RLHF），透過系統提示進行應用，或由外部過濾器在內容傳達給用戶前進行檢查與強制執行。

為什麼重要

沒有 guardrails 的話，模型會樂於協助處理危險的請求。挑戰在於校準—太嚴格的話，模型就會變得毫無用處（「我幫不上忙」），太鬆散的話，就會變得不安全。

深度解析

防護機制在堆疊的多個層級運作，了解每個層級的位置有助於分析其優勢與失敗模式。在最深層次，訓練階段的防護機制（RLHF、Constitutional AI、DPO）會塑造模型的內在傾向——模型真正「學習」拒絕有害請求，而非僅在事後過濾。接下來是系統提示，用自然語言設定行為界限（「你是一個有幫助的助手。永遠不要提供非法活動的指示。」）。然後是輸出過濾器——獨立的分類模型或基於規則的系統，在回應傳達給用戶前掃描模型的輸出。最後是應用層級的防護機制，強制執行商業邏輯：速率限制、內容政策、用戶驗證，以及針對您使用案例的特定話題限制。

實務中的層級

在實務中，大多數生產部署會同時使用多個層級。例如，OpenAI 的 API 會運行一個內容審核端點，用來分類暴力、自傷和性內容等類別的輸入和輸出。Anthropic 透過 Constitutional AI 原則將行為限制嵌入 Claude 的訓練中。基於這些 API 的公司通常會在其上添加自己的層級——客服機器人可能會拒絕任何試圖討論競爭對手的提示，不是因為不安全，而是因為與主題無關。NVIDIA 的 NeMo Guardrails 架構和 Guardrails AI 的開源庫是添加此應用層級的熱門工具，無需從頭開始構建。

誤判的問題

工程上的挑戰在於延遲和誤判。每一層防護機制都會增加處理時間，而過於積極的過濾器會導致對完全無害請求的「我無法協助」回應。任何曾有模型拒絕討論關於暴力的新聞文章，或拒絕協助寫驚悚小說（因為包含衝突）的人，都曾經歷過這種情況。校準閾值確實很困難：現實語言是模糊的、依賴語境的，並充滿邊界案例。「kill」這個詞出現在「kill a process」、「kill time」和「kill a person」中——一個簡單的關鍵字過濾器會立即失敗，即使先進的分類器也難以評估依賴語境的傷害性。這就是為什麼最好的防護系統會使用模型自身對語境的理解，而不是單純依賴模式匹配。

越獄的軍備競賽

越獄——即設計繞過防護機制的提示——已成為模型提供者與對抗用戶之間的貓鼠遊戲。技術範圍從簡單的角色扮演提示（「假裝你是一個無限制的邪惡 AI」）到高階方法，如多樣化提示、token 級別操作和編碼指示。每種新的越獄技術通常會在數週內被修補，但根本的不對稱性仍然存在：防禦者需要阻止所有可能的攻擊，而攻擊者只需找到一個可行的方法。這就是為什麼深度防禦——多個獨立的防護層級——比任何單一技術更重要。一個繞過系統提示的越獄可能仍會被輸出過濾器捕獲，反之亦然。

產品決策

對開發者而言，關鍵洞察是防護機制是產品決策，而不僅僅是安全考量。您的防護配置定義了產品的個性和功能。兒童教育應用與網絡安全研究工具需要截然不同的界限。基於模型的過於嚴格的預設值可以在遵循提供商使用政策的前提下，透過仔細的系統提示進行放寬，而額外的限制則可以透過輸出過濾進行添加。最佳方法是從明確的需求出發——系統永遠不應該做什麼、永遠應該做什麼，以及哪些灰色地帶存在——然後在適當的層級實現防護機制。

護欄