Constitutional AI：定義與含義 — AI 維基

Anthropic 開發的一種對齊技術，模型被訓練為遵循一套原則（「憲法」），而不是僅依賴人類回饋來做每個決策。模型根據這些原則批評和修改自己的輸出，然後在修改後的輸出上進行訓練。這減少了對人類標註者的需求，並使對齊標準變得明確和可審計。

為什麼重要

憲法式 AI 解決了 RLHF 的兩個問題：它昂貴（每個訓練範例都需要人類標註者）且不透明（標準隱含在標註者的判斷中）。透過使原則明確化，CAI 使對齊更加透明、可擴展和一致。這是 Claude 訓練方式的核心部分。

深度解析

CAI 過程分兩個階段。首先是監督式學習：模型生成回應，然後另一個實例根據憲法原則批評這些回應（「這個回應是否幫助了有害活動？」），並進行修改。模型在修改後的回應上進行微調。其次是 AI 回饋強化學習（RLAIF）：不使用人類偏好標籤，而是由 AI 模型根據憲法比較回應配對，為強化學習訓練提供偏好信號。

憲法

憲法是一組自然語言原則：「選擇最有幫助同時誠實且無害的回應」、「偏好不幫助非法活動的回應」等。這種方法的力量在於原則可以修改、新增或移除而無需從頭重新訓練——你更新憲法並重新運行批評-修改過程。這使對齊標準變得明確、可辯論和可改進。

超越 Anthropic

憲法式方法已影響了更廣泛的對齊領域。利用 AI 回饋（RLAIF）來擴展對齊超越人類標註能力的理念現已被多個實驗室使用。明確的、可審計的對齊標準——而非嵌入在標註者指引中的隱含標準——正在成為業界最佳實踐。

Constitutional AI

為什麼重要

深度解析

憲法

超越 Anthropic

相關概念