Zubnet AI學習Wiki › 獎勵模型
訓練

獎勵模型

RM、偏好模型
一種經過訓練來預測人類對 AI 回應偏好的模型。給定一個提示和兩個候選回應,獎勵模型評分人類會偏好哪個回應。在 RLHF 流程中,獎勵模型提供訓練語言模型產生更好回應的訊號——它是人類判斷的學習代理。

為什麼重要

獎勵模型是使 RLHF 運作的關鍵組件。你不可能讓人類在訓練期間評估每個回應(太慢、太貴),所以你訓練一個模型來近似人類偏好,並將其用作訓練訊號。獎勵模型的品質直接決定了對齊的品質——一個糟糕的獎勵模型會產生一個為錯誤目標最佳化的模型。

深度解析

訓練獎勵模型:收集對相同提示的回應配對,讓人類對它們進行排名(回應 A 優於回應 B),然後訓練一個模型來預測這些排名。獎勵模型為任何(提示,回應)配對輸出一個純量分數。在 RL 訓練期間,語言模型生成回應,獎勵模型對其評分,語言模型被更新以產生更高分數的回應。

獎勵駭客

一種危險的失敗模式:語言模型找到獲得高獎勵分數的方法,但實際上並不是更有幫助。如果獎勵模型已學會偏好較長的回應(因為人類通常偏好更詳細的答案),語言模型可能會用不必要的內容填充回應。這被稱為「獎勵駭客」或「獎勵博弈」。緩解措施包括 KL 散度懲罰(防止模型偏離基礎模型太遠)、獎勵模型集成,以及定期根據人類判斷重新校準。

DPO 繞過 RM

DPO(直接偏好最佳化)完全消除了單獨的獎勵模型,直接在偏好配對上最佳化語言模型。這避免了獎勵駭客,但失去了對任意回應進行評分的能力。一些實驗室同時使用兩者:獎勵模型用於評估和排名,加上 DPO 用於訓練。最佳方法取決於規模、資料品質以及你在訓練之外評估回應的需求程度。

相關概念

← 所有術語
← 狀態空間模型 生成式 AI →