RLHF: परिभाषा और अर्थ — AI विकी

एक प्रशिक्षण तकनीक जहां मानव मूल्यांकनकर्ता मॉडल के आउटपुट को गुणवत्ता के आधार पर रैंक करते हैं, और यह फीडबैक एक रिवॉर्ड मॉडल को प्रशिक्षित करने के लिए उपयोग किया जाता है जो AI को बेहतर प्रतिक्रियाओं की ओर दिशा देता है। यह वही है जो एक कच्चे प्रशिक्षित मॉडल (जो केवल अगले शब्दों का अनुमान लगाता है) को एक सहायक और निर्दोष सहायक में बदल देता है।

यह क्यों मायने रखता है

RLHF वह गुप्त घटक है जिसके कारण चैटजीपीटी जीपीटी-3 से अलग लगा। बेस मॉडल पहले से ही सब कुछ “जानता” था, लेकिन RLHF ने उसे ऐसा तरीका सीखाया कि मनुष्य वास्तव में उपयोगी पाएं। यह भी वह तरीका है जिसके माध्यम से सुरक्षा व्यवहारों को मजबूत किया जाता है।

गहन अध्ययन

RLHF एक बहु-चरणीय प्रक्रिया है, और हर चरण को समझना यह समझने के लिए आवश्यक है कि यह क्यों काम करता है और कहाँ टूटता है। पहले, आप एक ऐसे मॉडल के साथ शुरू करते हैं जिसे पहले से ही instruction-response pairs पर supervised fine-tuned (SFT) किया गया है, ताकि यह कम से कम प्रतिक्रियाओं को सही ढंग से format कर सके। दूसरे, आप comparison डेटा एकत्र करते हैं: मानव annotators को एक ही prompt के लिए दो या अधिक मॉडल प्रतिक्रियाएँ दिखाई जाती हैं और उन्हें quality के अनुसार रैंक करने के लिए कहा जाता है। इस comparison डेटा का उपयोग एक अलग reward मॉडल को प्रशिक्षित करने के लिए किया जाता है — एक न्यूरल नेटवर्क जो एक prompt-response pair लेता है और एक scalar score देता है जो भविष्यवाणी करता है कि एक मानव उस प्रतिक्रिया को कितना पसंद करेगा। तीसरे, आप एक reinforcement learning algorithm, आम तौर पर Proximal Policy Optimization (PPO), के माध्यम से मुख्य मॉडल को आगे प्रशिक्षित करने के लिए reward मॉडल का उपयोग एक signal के रूप में करते हैं। मॉडल प्रतिक्रियाएँ उत्पन्न करता है, reward मॉडल उन्हें score करता है, और मॉडल के parameters अपेक्षित reward बढ़ाने के लिए update होते हैं। एक critical घटक KL divergence penalty है, जो मॉडल को अपने SFT शुरुआती बिंदु से बहुत दूर drift करने से रोकता है — इसके बिना, मॉडल जल्दी से वास्तव में बेहतर प्रतिक्रियाएँ उत्पन्न करने के बजाय reward मॉडल में quirks को exploit करना सीख जाएगा।

Reward मॉडल समस्या

Reward मॉडल पूरी प्रक्रिया का linchpin और कमज़ोर link दोनों है। इसे तुलनाओं के एक सीमित set से मानव वरीयताओं की भविष्यवाणी करना सीखना है, और फिर उन वरीयताओं को novel prompts और प्रतिक्रियाओं के लिए सामान्यीकृत करना है। व्यवहार में, reward मॉडल blind spots विकसित कर सकते हैं: वे लंबी प्रतिक्रियाओं को पसंद करना सीख सकते हैं (क्योंकि annotators अक्सर लंबाई को thoroughness के साथ equate करते हैं), accuracy की परवाह किए बिना confidently sounding प्रतिक्रियाएँ, या hedging language वाली प्रतिक्रियाएँ (क्योंकि annotators ambiguous प्रश्नों पर सावधान उत्तरों को favour करते हैं)। ये reward मॉडल quirks RL चरण के दौरान amplified होते हैं, एक phenomenon जिसे reward hacking या reward मॉडल overoptimization कहा जाता है। आप इसे शाब्दिक रूप से होते हुए देख सकते हैं: जैसे-जैसे आप reward मॉडल के विरुद्ध अधिक प्रशिक्षण करते हैं, reward score बढ़ता रहता है, लेकिन आउटपुट के लिए वास्तविक मानव वरीयता peaks और फिर गिरती है। यही कारण है कि RLHF practitioners RL steps की संख्या को cap करते हैं और reward मॉडल के scores पर भरोसा करने के बजाय fresh मानव judgments के साथ नियमित रूप से मूल्यांकन करते हैं।

विकल्प

RLHF की व्यावहारिक चुनौतियाँ इतनी significant हैं कि क्षेत्र ने कई विकल्प विकसित किए हैं। Direct Preference Optimization (DPO), 2023 में पेश हुआ, अलग reward मॉडल और RL चरण को पूरी तरह से समाप्त करता है। इसके बजाय, यह RLHF उद्देश्य को एक classification loss के रूप में चतुर पुनर्निर्धारण का उपयोग करके comparison डेटा पर सीधे भाषा मॉडल को optimize करता है। DPO लागू करने में सरल है, प्रशिक्षित करने के लिए अधिक स्थिर है, और कम compute की आवश्यकता है। कई open-source मॉडल अब PPO-आधारित RLHF के बजाय DPO या इसके variants (IPO, KTO, ORPO) का उपयोग करते हैं। RLAIF (RL from AI Feedback) जैसे अन्य दृष्टिकोण मानव annotators को एक और AI मॉडल के साथ बदलते हैं — Anthropic का Constitutional AI framework इस दृष्टिकोण का उपयोग करता है, जहाँ मॉडल सिद्धांतों के एक set के अनुसार अपने आउटपुट की आलोचना और संशोधन करता है। इन विकल्पों में से प्रत्येक के trade-offs हैं: DPO सरल है लेकिन जटिल वरीयता संरचनाओं के लिए कम expressive हो सकता है, जबकि RLAIF बेहतर scale होता है लेकिन जो भी AI feedback प्रदान कर रहा है उसके biases को विरासत में लेता है।

मानव bottleneck

RLHF का मानव annotation पक्ष इसकी सबसे कम appreciated जटिलताओं में से एक है। Annotator quality, एकरूपता, और जनसांख्यिकीय संरचना सीधे आकार देते हैं कि मॉडल क्या सीखता है। यदि आपके annotators मुख्य रूप से English-speaking कॉलेज स्नातक हैं, तो मॉडल उनकी वरीयताएँ सीखता है, जो अन्य आबादी के लिए सामान्यीकृत नहीं हो सकती। Open-ended प्रश्नों के लिए "बेहतर" प्रतिक्रिया क्या है इस पर inter-annotator agreement अक्सर आश्चर्यजनक रूप से कम होता है, जिसका अर्थ है कि reward मॉडल noisy labels से सीख रहा है। कुछ labs इसे विस्तृत rubrics, annotator calibration sessions, और प्रति comparison कई annotators में majority voting के साथ संबोधित करती हैं। अन्य synthetic डेटा pipelines का उपयोग करते हैं जहाँ एक मज़बूत मॉडल तुलनाएँ उत्पन्न करता है। क्षेत्र अभी भी यहाँ best practices का पता लगा रहा है, और annotation pipeline अक्सर bottleneck है — इसलिए नहीं कि यह तकनीकी रूप से कठिन है, बल्कि क्योंकि "अच्छे" को परिभाषित करना genuinely दार्शनिक रूप से कठिन है जब आप इसे एक प्रशिक्षण signal के लिए पर्याप्त सटीक रूप से specify करने की कोशिश कर रहे हैं।

RLHF

यह क्यों मायने रखता है

गहन अध्ययन

Reward मॉडल समस्या

विकल्प

मानव bottleneck

संबंधित अवधारणाएँ