रीइन्फ़ोर्समेंट लर्निंग: परिभाषा और अर्थ — AI विकी

एक प्रशिक्षण परिप्रेक्ष्य जहां एक एआई एजेंट एक पर्यावरण के साथ बर्ताव करते हुए, कार्रवाई करते हुए और पुरस्कार या दंड प्राप्त करते हुए सीखता है। सुपर्वाइज्ड लर्निंग (जो चिह्नित उदाहरणों से सीखता है) के विपरीत, RL अनुभव से सीखता है — ट्रायल एंड एरर के माध्यम से। RL ने अल्फा गो को विश्व चैंपियन बीता देने के लिए प्रशिक्षित किया, रोबोटों को चलना सीखने के लिए शिक्षा देता है और चैटबॉट्स के लिए सहायक बनाने वाला RLHF में "RL" है।

यह क्यों मायने रखता है

स्वायत्त शिक्षा (RL) एआई के लिए कार्य करना सीखने के तरीका है, न कि केवल भविष्यवाणी करना। यह ऐसे मॉडलों और एजेंटों के बीच का पुल है जो प्रश्नों के उत्तर दे सकते हैं और लक्ष्यों को पूरा कर सकते हैं। समय के साथ योजना बनाने, रणनीति बनाने या अनुकूलित करने वाली प्रत्येक एआई प्रणाली में RL अपने वंशानुक्रम में कहीं न कहीं होता है।

गहन अध्ययन

Reinforcement learning एक धोखेबाज़ रूप से सरल loop पर बनी है: एक agent एक वातावरण की वर्तमान state का अवलोकन करता है, एक action लेता है, एक reward (या penalty) प्राप्त करता है, और तदनुसार अपनी रणनीति को update करता है। इसे लाखों या अरबों बार दोहराएँ, और agent ऐसे व्यवहारों की खोज करता है जो cumulative reward को अधिकतम करते हैं। गणितीय ढाँचा — Markov Decision Processes, Bellman equations, policy gradients — 1950 के दशक से मौजूद है, लेकिन RL एक niche अकादमिक खोज बना रहा जब तक कि डीप लर्निंग ने इसे जटिल, उच्च-आयामी वातावरणों को संभालने की क्षमता नहीं दी। 2013 में DeepMind का Atari खेलने वाला agent पहला mainstream प्रदर्शन था: एक न्यूरल नेटवर्क जिसने raw pixel इनपुट से दर्जनों video games खेलना सीखा, बिना किसी game-specific programming के, उनमें से कई पर मानव प्रदर्शन से मेल खाते या उसे पार करते हुए।

मुख्य algorithms और दृष्टिकोण

RL algorithms दो व्यापक परिवारों में आते हैं। Value-आधारित methods (जैसे DQN और इसके वंशज) यह अनुमान लगाना सीखते हैं कि हर state या state-action pair कितना मूल्यवान है, फिर ऐसे actions चुनते हैं जो उच्चतम-मूल्य states की ओर ले जाते हैं। Policy-आधारित methods (जैसे REINFORCE और PPO) सीधे values का स्पष्ट रूप से अनुमान लगाए बिना states से actions तक mapping सीखते हैं। व्यवहार में, अधिकांश आधुनिक RL सिस्टम actor-critic methods का उपयोग करते हैं जो दोनों को संयोजित करते हैं: एक network (actor) तय करता है कि क्या करना है, और दूसरा (critic) मूल्यांकन करता है कि वह निर्णय कितना अच्छा था। OpenAI द्वारा 2017 में विकसित Proximal Policy Optimization (PPO), कई applications के लिए workhorse algorithm बन गया है क्योंकि यह प्रशिक्षित करने के लिए अपेक्षाकृत स्थिर है और सावधानीपूर्वक hyperparameter tuning की आवश्यकता नहीं है। Group Relative Policy Optimization (GRPO), DeepSeek द्वारा अपने R1 reasoning मॉडल को प्रशिक्षित करने के लिए उपयोग किया जाता है, एक अलग critic network की आवश्यकता को पूरी तरह से समाप्त करता है, इसके बजाय कई नमूना आउटपुट की एक दूसरे के विरुद्ध तुलना करता है ताकि यह निर्धारित किया जा सके कि कौन से reinforcement के योग्य हैं।

AlphaGo क्षण और उससे आगे

Go के खेल में world champion Lee Sedol पर AlphaGo की 2016 की जीत RL का watershed क्षण थी। Go में ब्रह्मांड में परमाणुओं की तुलना में अधिक संभावित board positions हैं, brute-force search को असंभव बनाते हुए — सिस्टम को इस बारे में वास्तविक intuition विकसित करनी थी कि कौन से moves आशाजनक थे। AlphaGo ने supervised learning (मानव expert games पर प्रशिक्षण) को RL (ऐसी रणनीतियों की खोज के लिए स्वयं के विरुद्ध लाखों games खेलना जो किसी मानव ने कभी उपयोग नहीं की थीं) के साथ संयोजित किया। इसके उत्तराधिकारी, AlphaZero, और आगे गए: इसने chess, Go, और shogi को पूरी तरह से self-play से, बिना किसी मानव game डेटा के सीखा, और घंटों के भीतर हर खेल में सभी पिछले AI सिस्टमों को पार कर गया। इसने प्रदर्शित किया कि RL उन डोमेन में superhuman रणनीतियों की खोज कर सकता है जहाँ नियम ज्ञात हैं और reward signal स्पष्ट है। चुनौती हमेशा इस सफलता को gandi, वास्तविक-दुनिया डोमेन तक विस्तारित करना रही है जहाँ reward अस्पष्ट है और वातावरण आंशिक रूप से observable है।

RLHF: Chatbots को उपयोगी बनाना

आज RL का सबसे commercially महत्वपूर्ण application RLHF है — Reinforcement Learning from Human Feedback — जो वह तरीका है जिससे भाषा मॉडल helpful, harmless, और honest होना सीखते हैं। प्रक्रिया चरणों में काम करती है: पहले, internet text पर एक base भाषा मॉडल को प्रशिक्षित करें (pre-training)। फिर, मानव मूल्यांकनकर्ताओं को एक ही prompt के लिए विभिन्न मॉडल प्रतिक्रियाओं को गुणवत्ता के अनुसार रैंक करने को कहें। उन रैंकिंग का उपयोग एक reward मॉडल को प्रशिक्षित करने के लिए करें जो मानव वरीयताओं की भविष्यवाणी करता है। अंत में, reward मॉडल के score को अधिकतम करने के लिए भाषा मॉडल को fine-tune करने के लिए RL (आम तौर पर PPO या एक variant) का उपयोग करें। यही वह है जो एक raw भाषा मॉडल को जो toxic, unhelpful, या dangerous आउटपुट उत्पन्न कर सकता है, एक polished assistant में बदल देता है। Anthropic का Constitutional AI इस विचार का विस्तार करता है मॉडल से अपने आउटपुट को सिद्धांतों के एक set के विरुद्ध मूल्यांकन करवाकर, मानव labelers की आवश्यकता को कम करते हुए। Direct Preference Optimization (DPO) अलग reward मॉडल को पूरी तरह से समाप्त करके, सीधे वरीयता डेटा पर भाषा मॉडल को optimize करते हुए, pipeline को और सरल बनाता है। लगभग हर प्रमुख chatbot — ChatGPT, Claude, Gemini, Command R — इस RL-आधारित alignment प्रक्रिया के किसी variant पर निर्भर करता है।

सीमाएँ: Agents, robotics, और खुली समस्याएँ

RL का अगला अध्याय दो डोमेन में खेल रहा है। AI agents में, RL मॉडलों को tools का उपयोग करना, कोड लिखना और execute करना, web browse करना, और बहु-चरणीय लक्ष्यों को पूरा करना सिखाता है। OpenAI ने अपने o-series reasoning मॉडलों को coding और math कार्यों पर RL के साथ प्रशिक्षित किया; मॉडलों ने योजना बनाना, backtrack करना, और verify करना सीखा — सभी emergent व्यवहार सही उत्तरों के लिए reward signals द्वारा संचालित। Robotics में, RL अंततः दशकों के वादे पर पहुँच रहा है: Google DeepMind का RT-2 और Figure के humanoid robots वस्तुओं को manipulate करने, वातावरणों को navigate करने, और नई स्थितियों के अनुकूल होने के लिए RL (अक्सर मानव demonstrations से imitation learning के साथ संयुक्त) का उपयोग करते हैं। सबसे बड़ी खुली समस्याएँ बनी रहती हैं sample दक्षता (RL को आम तौर पर ऐसे व्यवहारों को सीखने के लिए लाखों trials की आवश्यकता होती है जो एक मानव मिनटों में सीख लेता है), reward specification (जटिल वास्तविक-दुनिया कार्यों में "अच्छे" का अर्थ बिना अनजाने अनपेक्षित shortcuts को incentivize किए परिभाषित करना), और sim-to-real transfer (simulation में सीखी गई policies अक्सर physical hardware पर तैनात होने पर टूट जाती हैं, जहाँ friction, latency, और sensor noise एक reality gap बनाते हैं)।

रीइन्फ़ोर्समेंट लर्निंग