Zubnet AI學習Wiki › Constitutional AI
安全

Constitutional AI

別名:CAI
Anthropic 開發的一種對齊技術,模型被訓練為遵循一套原則(「憲法」),而不是僅依賴人類回饋來做每個決策。模型根據這些原則批評和修改自己的輸出,然後在修改後的輸出上進行訓練。這減少了對人類標註者的需求,並使對齊標準變得明確和可審計。

為什麼重要

憲法式 AI 解決了 RLHF 的兩個問題:它昂貴(每個訓練範例都需要人類標註者)且不透明(標準隱含在標註者的判斷中)。透過使原則明確化,CAI 使對齊更加透明、可擴展和一致。這是 Claude 訓練方式的核心部分。

深度解析

CAI 過程分兩個階段。首先是監督式學習:模型生成回應,然後另一個實例根據憲法原則批評這些回應(「這個回應是否幫助了有害活動?」),並進行修改。模型在修改後的回應上進行微調。其次是 AI 回饋強化學習(RLAIF):不使用人類偏好標籤,而是由 AI 模型根據憲法比較回應配對,為強化學習訓練提供偏好信號。

憲法

憲法是一組自然語言原則:「選擇最有幫助同時誠實且無害的回應」、「偏好不幫助非法活動的回應」等。這種方法的力量在於原則可以修改、新增或移除而無需從頭重新訓練——你更新憲法並重新運行批評-修改過程。這使對齊標準變得明確、可辯論和可改進。

超越 Anthropic

憲法式方法已影響了更廣泛的對齊領域。利用 AI 回饋(RLAIF)來擴展對齊超越人類標註能力的理念現已被多個實驗室使用。明確的、可審計的對齊標準——而非嵌入在標註者指引中的隱含標準——正在成為業界最佳實踐。

相關概念

← 所有術語
← Cohere Contamination →
ESC