訓練獎勵模型:收集對相同提示的回應配對,讓人類對它們進行排名(回應 A 優於回應 B),然後訓練一個模型來預測這些排名。獎勵模型為任何(提示,回應)配對輸出一個純量分數。在 RL 訓練期間,語言模型生成回應,獎勵模型對其評分,語言模型被更新以產生更高分數的回應。
一種危險的失敗模式:語言模型找到獲得高獎勵分數的方法,但實際上並不是更有幫助。如果獎勵模型已學會偏好較長的回應(因為人類通常偏好更詳細的答案),語言模型可能會用不必要的內容填充回應。這被稱為「獎勵駭客」或「獎勵博弈」。緩解措施包括 KL 散度懲罰(防止模型偏離基礎模型太遠)、獎勵模型集成,以及定期根據人類判斷重新校準。
DPO(直接偏好最佳化)完全消除了單獨的獎勵模型,直接在偏好配對上最佳化語言模型。這避免了獎勵駭客,但失去了對任意回應進行評分的能力。一些實驗室同時使用兩者:獎勵模型用於評估和排名,加上 DPO 用於訓練。最佳方法取決於規模、資料品質以及你在訓練之外評估回應的需求程度。