CAI 過程分兩個階段。首先是監督式學習:模型生成回應,然後另一個實例根據憲法原則批評這些回應(「這個回應是否幫助了有害活動?」),並進行修改。模型在修改後的回應上進行微調。其次是 AI 回饋強化學習(RLAIF):不使用人類偏好標籤,而是由 AI 模型根據憲法比較回應配對,為強化學習訓練提供偏好信號。
憲法是一組自然語言原則:「選擇最有幫助同時誠實且無害的回應」、「偏好不幫助非法活動的回應」等。這種方法的力量在於原則可以修改、新增或移除而無需從頭重新訓練——你更新憲法並重新運行批評-修改過程。這使對齊標準變得明確、可辯論和可改進。
憲法式方法已影響了更廣泛的對齊領域。利用 AI 回饋(RLAIF)來擴展對齊超越人類標註能力的理念現已被多個實驗室使用。明確的、可審計的對齊標準——而非嵌入在標註者指引中的隱含標準——正在成為業界最佳實踐。