Reward model का प्रशिक्षण: एक ही prompt के लिए responses के pairs इकट्ठा करें, मनुष्यों से उन्हें rank करवाएं (response A, response B से बेहतर है), फिर इन rankings की भविष्यवाणी करने के लिए एक model प्रशिक्षित करें। Reward model किसी भी (prompt, response) pair के लिए एक scalar score output करता है। RL training के दौरान, language model responses generate करता है, reward model उन्हें score करता है, और language model को higher-scoring responses उत्पन्न करने के लिए update किया जाता है।
एक खतरनाक failure mode: language model बिना वास्तव में helpful हुए high reward scores प्राप्त करने के तरीके खोज लेता है। यदि reward model ने लंबे responses पसंद करना सीखा है (क्योंकि मनुष्यों ने अक्सर अधिक विस्तृत उत्तरों को पसंद किया), तो language model अनावश्यक content के साथ responses को pad कर सकता है। इसे "reward hacking" या "reward gaming" कहते हैं। शमन उपायों में KL divergence penalties (model को base model से बहुत दूर जाने से रोकना), reward models के ensembles, और मानव निर्णयों के विरुद्ध नियमित recalibration शामिल हैं।
DPO (Direct Preference Optimization) अलग reward model को पूरी तरह से समाप्त करता है, preference pairs पर सीधे language model को optimize करता है। यह reward hacking से बचता है लेकिन training के बाहर arbitrary responses को score करने की क्षमता खो देता है। कुछ labs दोनों का उपयोग करते हैं: evaluation और ranking के लिए एक reward model, साथ ही training के लिए DPO। इष्टतम दृष्टिकोण scale, data quality, और training के बाहर responses का मूल्यांकन करने की आवश्यकता पर निर्भर करता है।