Zubnet AIसीखेंWiki › ऑटोरिग्रेसिव
मूल तत्व

ऑटोरिग्रेसिव

इसे यह भी कहते हैं: ऑटोरिग्रेसिव मॉडल, Next-Token Prediction
एक मॉडल जो एक समय में एक टोकन आउटपुट उत्पन्न करता है, जहाँ प्रत्येक नया टोकन पहले आए सभी टोकन के आधार पर भविष्यवाणी किया जाता है। हर आधुनिक LLM — Claude, GPT, Llama, Gemini — ऑटोरिग्रेसिव है। मॉडल पूरी प्रतिक्रिया की "योजना" नहीं बनाता और फिर लिखता है; यह सचमुच अगले शब्द की भविष्यवाणी करता है, उसे जोड़ता है, फिर अगले की भविष्यवाणी करता है, बार-बार जब तक रुकने का फ़ैसला नहीं करता।

यह क्यों मायने रखता है

ऑटोरिग्रेसिव जनरेशन को समझने से अधिकांश LLM व्यवहारों की व्याख्या होती है: प्रतिक्रियाएँ टोकन-दर-टोकन क्यों स्ट्रीम होती हैं, मॉडल कभी-कभी पैराग्राफ़ के बीच में खुद का विरोध क्यों करता है, लंबे आउटपुट धीमे और महंगे क्यों होते हैं, और आप मॉडल से "वापस जाकर शुरुआत ठीक करो" आसानी से क्यों नहीं कह सकते। मॉडल हमेशा आगे बढ़ रहा होता है, एक समय में एक टोकन।

गहन अध्ययन

ऑटोरिग्रेसिव जनरेशन सरल लगता है — अगले टोकन की भविष्यवाणी करो, दोहराओ — लेकिन इसके परिणाम गहरे हैं। मॉडल प्रत्येक चरण पर अपनी पूरी शब्दावली पर एक प्रायिकता वितरण उत्पन्न करता है। चयनित होने वाला टोकन temperature और top-p जैसे sampling पैरामीटर पर निर्भर करता है।

यह धीमा क्यों है

इनपुट प्रोसेसिंग के दौरान, मॉडल आपके सभी प्रॉम्प्ट टोकन को समानांतर में प्रोसेस कर सकता है — इसे "prefill" चरण कहते हैं। लेकिन जनरेशन के दौरान, प्रत्येक नए टोकन के लिए पूरे मॉडल से एक पूर्ण forward pass की आवश्यकता होती है, और वह pass पिछला टोकन तय होने तक शुरू नहीं हो सकता। यह क्रमिक बाधा ही कारण है कि आउटपुट जनरेशन इनपुट प्रोसेसिंग से काफ़ी धीमा होता है।

केवल-आगे के परिणाम

चूँकि मॉडल केवल आगे बढ़ सकता है, यह बाद की अंतर्दृष्टि के आधार पर पहले के टोकन को संशोधित नहीं कर सकता। यही कारण है कि chain-of-thought prompting सहायक है: मॉडल से उत्तर देने से पहले सोचने को कहकर, आप उसे अंतिम उत्तर पर प्रतिबद्ध होने से पहले समस्या पर काम करने का मौका देते हैं।

विकल्प मौजूद हैं

सभी जनरेटिव मॉडल ऑटोरिग्रेसिव नहीं हैं। Diffusion मॉडल एक साथ सब कुछ उत्पन्न करते हैं और iteratively परिष्कृत करते हैं। कुछ शोध non-autoregressive टेक्स्ट जनरेशन की खोज कर रहे हैं। लेकिन टेक्स्ट के लिए, ऑटोरिग्रेसिव प्रमुख बना हुआ है क्योंकि भाषा में एक मज़बूत क्रमिक संरचना है जिसका ऑटोरिग्रेसिव मॉडल स्वाभाविक रूप से लाभ उठाते हैं।

संबंधित अवधारणाएँ

← सभी शब्द
← एम्बेडिंग ऑप्टिमाइज़ेशन →
ESC