RLHF 是一個多階段的過程,理解每個階段對於明白它為何有效和在哪裡會出問題至關重要。首先,你從一個已經過監督式微調(SFT)的模型開始,使其至少能正確格式化回應。其次,收集比較資料:人類標註員看到同一提示的兩個或多個模型回應,並被要求按品質排序。這些比較資料用於訓練一個獨立的獎勵模型 —— 一個接收提示-回應對並輸出一個標量分數的神經網路,預測人類會多偏好這個回應。第三,使用獎勵模型作為信號,透過強化學習演算法(通常是 Proximal Policy Optimization,PPO)進一步訓練主模型。模型生成回應,獎勵模型給出評分,模型的參數被更新以增加預期獎勵。一個關鍵組件是 KL 散度懲罰,它防止模型偏離其 SFT 起點太遠 —— 沒有它,模型會迅速學會利用獎勵模型的怪癖,而非真正產出更好的回應。
獎勵模型既是整個過程的核心也是薄弱環節。它必須從有限的比較集中學習預測人類偏好,然後將這些偏好泛化到新穎的提示和回應。在實務上,獎勵模型可能產生盲點:它可能學會偏好較長的回應(因為標註員通常將長度等同於深入性)、無論準確與否都語氣自信的回應,或包含模稜兩可措辭的回應(因為標註員在模糊問題上偏好謹慎的答案)。這些獎勵模型的怪癖會在 RL 階段被放大,這種現象稱為獎勵入侵或獎勵模型過度優化。你可以看到它的發生:隨著針對獎勵模型訓練時間增加,獎勵分數持續攀升,但人類對輸出的實際偏好先達峰值然後下降。這就是為什麼 RLHF 實務工作者會限制 RL 步數,並定期用新的人類評判來評估,而非信任獎勵模型的分數。
RLHF 的實務挑戰足夠重大,以致業界開發了幾種替代方案。直接偏好優化(DPO)於 2023 年推出,完全消除了獨立的獎勵模型和 RL 階段。取而代之的是將 RLHF 目標巧妙地重新表述為分類損失,直接在比較資料上優化語言模型。DPO 更容易實現、訓練更穩定、計算量更少。許多開源模型現在使用 DPO 或其變體(IPO、KTO、ORPO)而非基於 PPO 的 RLHF。其他方法如 RLAIF(來自 AI 回饋的 RL)用另一個 AI 模型取代人類標註員 —— Anthropic 的 Constitutional AI 框架使用這種方法,模型根據一組原則批評和修改自己的輸出。這些替代方案各有取捨:DPO 更簡單但對複雜偏好結構的表達力可能較弱;RLAIF 更易擴展但會繼承提供回饋的 AI 的偏見。
RLHF 中人類標註的部分是其最被低估的複雜性之一。標註員的品質、一致性和人口統計組成直接塑造了模型學到的東西。如果你的標註員主要是說英語的大學畢業生,模型就會學習他們的偏好,而這未必適用於其他群體。在什麼構成「更好」回應的開放性問題上,標註員之間的一致性往往低得驚人,這意味著獎勵模型是在有雜訊的標籤上學習。一些實驗室透過詳細的評分標準、標註員校準和多位標註員投票來解決這個問題。另一些則使用合成資料管線,由更強的模型生成比較結果。業界仍在摸索最佳實踐,而標註管線往往是瓶頸 —— 不是因為技術上困難,而是因為當你試圖精確到足以作為訓練信號時,定義「好」本身就是一個真正具有哲學難度的問題。