तर्क: परिभाषा और अर्थ — AI विकी

AI मॉडल के स्टेप-बाई-स्टेप सोचने की क्षमता, जटिल समस्याओं को विच्छेद करना और तार्किक रूप से सही निष्कर्ष निकालना। आधुनिक तर्क मॉडल (जैसे OpenAI के o1/o3 और DeepSeek-R1) को उत्तर देने से पहले विशिष्ट तर्क प्रक्रिया उत्पन्न करने के लिए प्रशिक्षित किया जाता है, जो गणित, कोडिंग और तार्किक कार्यों में प्रदर्शन में भारी सुधार लाता है। यह सरल पैटर्न मैचिंग से अलग है — तर्क मॉडल पहले नहीं देखे गए समस्याओं को हल कर सकते हैं।

यह क्यों मायने रखता है

तर्क — वह सीमा क्षमता है जो "बुद्धिमान लगने वाली AI" को "वास्तव में बुद्धिमान AI" से अलग करती है। अच्छा तर्क करने वाले मॉडल कोड के डीबग कर सकते हैं, प्रमेय साबित कर सकते हैं, बहु-चरण रणनीतियों की योजना बना सकते हैं और अपनी गलतियों को पकड़ सकते हैं। तर्क के साथ और बिना तर्क के मॉडलों के बीच अंतर वर्तमान में AI में सबसे बड़ा गुणवत्ता का भेदक है।

गहन अध्ययन

वर्षों तक, भाषा मॉडल प्रभावशाली mimics थे लेकिन अविश्वसनीय thinkers। GPT-3 से एक बहु-चरणीय math समस्या को हल करने के लिए कहें और यह अक्सर सीधे एक उत्तर पर कूद जाता — कभी-कभी सही, अक्सर ग़लत, यह पता लगाने का कोई तरीका नहीं था कि यह कहाँ ग़लत हुआ। सफलता एक धोखेबाज़ रूप से सरल अंतर्दृष्टि से आई: यदि आप एक मॉडल को अपना काम दिखाने के लिए प्रशिक्षित करते हैं, तो यह सही उत्तर प्राप्त करने में नाटकीय रूप से बेहतर हो जाता है। Chain-of-thought prompting (पहली बार Google शोधकर्ताओं द्वारा 2022 में प्रदर्शित) ने दिखाया कि एक prompt में बस "चलिए step by step सोचते हैं" जोड़ने से math benchmarks पर सटीकता 20–40% तक बढ़ सकती है। लेकिन prompting केवल सतह को scratches। True reasoning मॉडल — OpenAI का o1 और o3, DeepSeek-R1, Claude का extended thinking — विशेष रूप से एक उत्तर उत्पन्न करने से पहले लंबी आंतरिक reasoning traces उत्पन्न करने के लिए प्रशिक्षित हैं, reinforcement learning का उपयोग करके लिए गए reasoning पथ की परवाह किए बिना सही अंतिम परिणामों को reward करते हुए।

Reasoning मॉडल कैसे सोचते हैं

एक reasoning मॉडल केवल "अधिक मेहनत से" नहीं सोचता — यह अलग तरह से सोचता है। जब आप एक मानक भाषा मॉडल को एक जटिल समस्या देते हैं, तो यह बाएँ से दाएँ tokens उत्पन्न करता है, पूरे समाधान को देखने से पहले हर शब्द के लिए commit करता है। एक reasoning मॉडल विचार की एक विस्तारित श्रृंखला उत्पन्न करता है — कभी-कभी सैकड़ों या हज़ारों tokens — दृष्टिकोणों का अन्वेषण करता है, dead ends हिट करने पर backtrack करता है, और अंतिम उत्तर के लिए commit करने से पहले अपने तर्क को verify करता है। OpenAI का o3 मॉडल, उदाहरण के लिए, एक कठिन math समस्या पर 10,000 thinking tokens खर्च कर सकता है, एक दृष्टिकोण की कोशिश करता है, एक दोष को पहचानता है, रणनीतियों को बदलता है, और अंततः एक सही proof पर converge करता है। Inference time पर यह अतिरिक्त compute (अक्सर "test-time compute" या "thinking time" कहा जाता है) मुख्य व्यापार-बंद है: reasoning मॉडल प्रति query धीमे और अधिक महंगे हैं, लेकिन वे ऐसी समस्याओं को हल करते हैं जिन्हें मानक मॉडल बस नहीं कर सकते। AIME (प्रतियोगिता math), GPQA (PhD-स्तरीय विज्ञान), और SWE-bench (वास्तविक-दुनिया software इंजीनियरिंग) जैसे benchmarks पर, reasoning मॉडल अपने non-reasoning समकक्षों से 30–50 प्रतिशत अंकों से बेहतर प्रदर्शन करते हैं।

प्रशिक्षण recipe

एक reasoning मॉडल बनाने में एक विशिष्ट प्रशिक्षण pipeline शामिल है। नींव एक मज़बूत pretrained भाषा मॉडल है, लेकिन महत्वपूर्ण step reasoning कार्यों पर reinforcement learning (RL) है। DeepSeek ने अपने R1 मॉडल के साथ सबसे विस्तृत खाता प्रकाशित किया: वे अच्छे reasoning के उदाहरणों पर supervised fine-tuning से शुरू करते हैं, फिर Group Relative Policy Optimization (GRPO) लागू करते हैं — reinforcement learning का एक variant जो एक अलग reward मॉडल की आवश्यकता के बिना सही अंतिम उत्तरों को reward करता है। RL चरण वह जगह है जहाँ जादू होता है। मॉडल अपने आप reasoning रणनीतियाँ खोजता है: समस्याओं को sub-problems में तोड़ना, अपने काम की जाँच करना, edge cases पर विचार करना, और जब यह sure नहीं है तब अनिश्चितता व्यक्त करना। उल्लेखनीय रूप से, DeepSeek ने पाया कि उनके मॉडल ने स्पष्ट रूप से सिखाए जाने के बिना RL प्रशिक्षण के दौरान इन व्यवहारों को spontaneously विकसित किया — सही उत्तरों के लिए reward signal कठोर reasoning को incentivize करने के लिए पर्याप्त था।

सीमाएँ और failure modes

Reasoning मॉडल अचूक नहीं हैं, और उनकी विफलताएँ मानक मॉडलों की तुलना में अधिक सूक्ष्म हो सकती हैं। एक आम मुद्दा "overthinking" है — मॉडल विचार की एक विस्तृत श्रृंखला उत्पन्न करता है जो कठोर दिखती है लेकिन एक ग़लत उत्तर पर पहुँचती है क्योंकि उसने एक प्रशंसनीय-लेकिन-ग़लत logical पथ का अनुसरण किया। दूसरा सरल प्रश्नों पर reasoning की लागत है: एक reasoning मॉडल से "France की राजधानी क्या है?" पूछना एक अनावश्यक deliberation को trigger कर सकता है जो tokens और समय बर्बाद करता है। मॉडल "faithfulness" समस्याएँ भी प्रदर्शित कर सकते हैं, जहाँ दृश्य reasoning chain वास्तव में मॉडल की आंतरिक computation को प्रतिबिंबित नहीं करती — मॉडल pattern matching के माध्यम से एक उत्तर पर पहुँचता है फिर एक reasoning trace उत्पन्न करता है जो इसे post hoc rationalize करती है। और लंबी reasoning chains drift कर सकती हैं: 5,000-token की एक विचार श्रृंखला में, step 3 में एक त्रुटि शेष 40 steps के माध्यम से propagate हो सकती है, एक confidently ग़लत अंतिम उत्तर उत्पन्न करते हुए जो meticulously derived दिखता है।

Reasoning कहाँ जा रहा है

Reasoning शोध का प्रक्षेपवक्र ऐसे मॉडलों की ओर इशारा करता है जो समस्या की कठिनाई के आधार पर thinking समय को adaptively आवंटित कर सकते हैं — एक आसान प्रश्न पर 50 tokens और एक कठिन पर 50,000 खर्च करते हुए। यह "compute-optimal" reasoning पहले से ही उभर रहा है: OpenAI और Anthropic दोनों ऐसे मॉडल पेश करते हैं जो स्वचालित रूप से अपने thinking को scale करते हैं। एकल-turn reasoning से परे, सीमा बहु-चरणीय agent reasoning है — मॉडल जो कई interactions पर जटिल कार्यों की योजना और execute कर सकते हैं, नई जानकारी के अनुकूल होते हुए एक coherent रणनीति बनाए रखते हुए। Claude का extended thinking, OpenAI का o3, और DeepSeek-R1 सभी पहली पीढ़ी के reasoning सिस्टमों का प्रतिनिधित्व करते हैं। अगली पीढ़ी संभवतः मॉडल की अपनी computation पर अकेले निर्भर रहने के बजाय intermediate steps को verify करने के लिए reasoning को tool use (calculators, कोड execution, search) के साथ संयोजित करेगी, "AI जो तर्क करता है" और "AI जो विश्वसनीय रूप से सही उत्तर प्राप्त करता है" के बीच के अंतर को बंद करते हुए।

तर्क