獎勵模型：定義與含義 — AI 維基

一種經過訓練來預測人類對 AI 回應偏好的模型。給定一個提示和兩個候選回應，獎勵模型評分人類會偏好哪個回應。在 RLHF 流程中，獎勵模型提供訓練語言模型產生更好回應的訊號——它是人類判斷的學習代理。

為什麼重要

獎勵模型是使 RLHF 運作的關鍵組件。你不可能讓人類在訓練期間評估每個回應（太慢、太貴），所以你訓練一個模型來近似人類偏好，並將其用作訓練訊號。獎勵模型的品質直接決定了對齊的品質——一個糟糕的獎勵模型會產生一個為錯誤目標最佳化的模型。

深度解析

訓練獎勵模型：收集對相同提示的回應配對，讓人類對它們進行排名（回應 A 優於回應 B），然後訓練一個模型來預測這些排名。獎勵模型為任何（提示，回應）配對輸出一個純量分數。在 RL 訓練期間，語言模型生成回應，獎勵模型對其評分，語言模型被更新以產生更高分數的回應。

獎勵駭客

一種危險的失敗模式：語言模型找到獲得高獎勵分數的方法，但實際上並不是更有幫助。如果獎勵模型已學會偏好較長的回應（因為人類通常偏好更詳細的答案），語言模型可能會用不必要的內容填充回應。這被稱為「獎勵駭客」或「獎勵博弈」。緩解措施包括 KL 散度懲罰（防止模型偏離基礎模型太遠）、獎勵模型集成，以及定期根據人類判斷重新校準。

DPO 繞過 RM

DPO（直接偏好最佳化）完全消除了單獨的獎勵模型，直接在偏好配對上最佳化語言模型。這避免了獎勵駭客，但失去了對任意回應進行評分的能力。一些實驗室同時使用兩者：獎勵模型用於評估和排名，加上 DPO 用於訓練。最佳方法取決於規模、資料品質以及你在訓練之外評估回應的需求程度。

獎勵模型

為什麼重要

深度解析

獎勵駭客

DPO 繞過 RM

相關概念