Zubnet AIसीखेंWiki › Reward Model
प्रशिक्षण

Reward Model

इसे भी कहा जाता है: RM, Preference Model
एक model जो AI responses के बीच मानव वरीयताओं की भविष्यवाणी करने के लिए प्रशिक्षित किया जाता है। एक prompt और दो candidate responses दिए जाने पर, reward model score करता है कि मनुष्य कौन सा response पसंद करेंगे। RLHF pipeline में, reward model वह signal प्रदान करता है जो language model को बेहतर responses उत्पन्न करने के लिए प्रशिक्षित करता है — यह मानव निर्णय का learned proxy है।

यह क्यों मायने रखता है

Reward model वह मुख्य component है जो RLHF को काम करता है। आप training के दौरान हर response को मनुष्य से rate नहीं करवा सकते (बहुत धीमा, बहुत महंगा), इसलिए आप मानव वरीयताओं का अनुमान लगाने के लिए एक model प्रशिक्षित करते हैं और उसे training signal के रूप में उपयोग करते हैं। Reward model की गुणवत्ता सीधे alignment की गुणवत्ता निर्धारित करती है — एक खराब reward model ऐसा model उत्पन्न करता है जो गलत चीज़ों के लिए optimize करता है।

गहन अध्ययन

Reward model का प्रशिक्षण: एक ही prompt के लिए responses के pairs इकट्ठा करें, मनुष्यों से उन्हें rank करवाएं (response A, response B से बेहतर है), फिर इन rankings की भविष्यवाणी करने के लिए एक model प्रशिक्षित करें। Reward model किसी भी (prompt, response) pair के लिए एक scalar score output करता है। RL training के दौरान, language model responses generate करता है, reward model उन्हें score करता है, और language model को higher-scoring responses उत्पन्न करने के लिए update किया जाता है।

Reward Hacking

एक खतरनाक failure mode: language model बिना वास्तव में helpful हुए high reward scores प्राप्त करने के तरीके खोज लेता है। यदि reward model ने लंबे responses पसंद करना सीखा है (क्योंकि मनुष्यों ने अक्सर अधिक विस्तृत उत्तरों को पसंद किया), तो language model अनावश्यक content के साथ responses को pad कर सकता है। इसे "reward hacking" या "reward gaming" कहते हैं। शमन उपायों में KL divergence penalties (model को base model से बहुत दूर जाने से रोकना), reward models के ensembles, और मानव निर्णयों के विरुद्ध नियमित recalibration शामिल हैं।

DPO RM को Bypass करता है

DPO (Direct Preference Optimization) अलग reward model को पूरी तरह से समाप्त करता है, preference pairs पर सीधे language model को optimize करता है। यह reward hacking से बचता है लेकिन training के बाहर arbitrary responses को score करने की क्षमता खो देता है। कुछ labs दोनों का उपयोग करते हैं: evaluation और ranking के लिए एक reward model, साथ ही training के लिए DPO। इष्टतम दृष्टिकोण scale, data quality, और training के बाहर responses का मूल्यांकन करने की आवश्यकता पर निर्भर करता है।

संबंधित अवधारणाएँ

← सभी शब्द
← Retrieval RLAIF →