RLHF：定義與含義 — AI 維基

一種訓練技術，由人類評估員對模型輸出按品質排序，這些回饋用於訓練一個獎勵模型，引導 AI 產出更好的回應。它將一個只會預測下一個詞的原始預訓練模型轉變為有用且無害的助理。

為什麼重要

RLHF 是讓 ChatGPT 感覺與 GPT-3 不同的秘密武器。基礎模型已經「知道」一切，但 RLHF 教會了它以人類真正覺得有用的方式呈現知識。它也是安全行為得到強化的方式。

深度解析

RLHF 是一個多階段的過程，理解每個階段對於明白它為何有效和在哪裡會出問題至關重要。首先，你從一個已經過監督式微調（SFT）的模型開始，使其至少能正確格式化回應。其次，收集比較資料：人類標註員看到同一提示的兩個或多個模型回應，並被要求按品質排序。這些比較資料用於訓練一個獨立的獎勵模型 —— 一個接收提示-回應對並輸出一個標量分數的神經網路，預測人類會多偏好這個回應。第三，使用獎勵模型作為信號，透過強化學習演算法（通常是 Proximal Policy Optimization，PPO）進一步訓練主模型。模型生成回應，獎勵模型給出評分，模型的參數被更新以增加預期獎勵。一個關鍵組件是 KL 散度懲罰，它防止模型偏離其 SFT 起點太遠 —— 沒有它，模型會迅速學會利用獎勵模型的怪癖，而非真正產出更好的回應。

獎勵模型問題

獎勵模型既是整個過程的核心也是薄弱環節。它必須從有限的比較集中學習預測人類偏好，然後將這些偏好泛化到新穎的提示和回應。在實務上，獎勵模型可能產生盲點：它可能學會偏好較長的回應（因為標註員通常將長度等同於深入性）、無論準確與否都語氣自信的回應，或包含模稜兩可措辭的回應（因為標註員在模糊問題上偏好謹慎的答案）。這些獎勵模型的怪癖會在 RL 階段被放大，這種現象稱為獎勵入侵或獎勵模型過度優化。你可以看到它的發生：隨著針對獎勵模型訓練時間增加，獎勵分數持續攀升，但人類對輸出的實際偏好先達峰值然後下降。這就是為什麼 RLHF 實務工作者會限制 RL 步數，並定期用新的人類評判來評估，而非信任獎勵模型的分數。

替代方案

RLHF 的實務挑戰足夠重大，以致業界開發了幾種替代方案。直接偏好優化（DPO）於 2023 年推出，完全消除了獨立的獎勵模型和 RL 階段。取而代之的是將 RLHF 目標巧妙地重新表述為分類損失，直接在比較資料上優化語言模型。DPO 更容易實現、訓練更穩定、計算量更少。許多開源模型現在使用 DPO 或其變體（IPO、KTO、ORPO）而非基於 PPO 的 RLHF。其他方法如 RLAIF（來自 AI 回饋的 RL）用另一個 AI 模型取代人類標註員 —— Anthropic 的 Constitutional AI 框架使用這種方法，模型根據一組原則批評和修改自己的輸出。這些替代方案各有取捨：DPO 更簡單但對複雜偏好結構的表達力可能較弱；RLAIF 更易擴展但會繼承提供回饋的 AI 的偏見。

人類瓶頸

RLHF 中人類標註的部分是其最被低估的複雜性之一。標註員的品質、一致性和人口統計組成直接塑造了模型學到的東西。如果你的標註員主要是說英語的大學畢業生，模型就會學習他們的偏好，而這未必適用於其他群體。在什麼構成「更好」回應的開放性問題上，標註員之間的一致性往往低得驚人，這意味著獎勵模型是在有雜訊的標籤上學習。一些實驗室透過詳細的評分標準、標註員校準和多位標註員投票來解決這個問題。另一些則使用合成資料管線，由更強的模型生成比較結果。業界仍在摸索最佳實踐，而標註管線往往是瓶頸 —— 不是因為技術上困難，而是因為當你試圖精確到足以作為訓練信號時，定義「好」本身就是一個真正具有哲學難度的問題。

RLHF

為什麼重要

深度解析

獎勵模型問題

替代方案

人類瓶頸

相關概念