ऑटोरिग्रेसिव जनरेशन सरल लगता है — अगले टोकन की भविष्यवाणी करो, दोहराओ — लेकिन इसके परिणाम गहरे हैं। मॉडल प्रत्येक चरण पर अपनी पूरी शब्दावली पर एक प्रायिकता वितरण उत्पन्न करता है। चयनित होने वाला टोकन temperature और top-p जैसे sampling पैरामीटर पर निर्भर करता है।
इनपुट प्रोसेसिंग के दौरान, मॉडल आपके सभी प्रॉम्प्ट टोकन को समानांतर में प्रोसेस कर सकता है — इसे "prefill" चरण कहते हैं। लेकिन जनरेशन के दौरान, प्रत्येक नए टोकन के लिए पूरे मॉडल से एक पूर्ण forward pass की आवश्यकता होती है, और वह pass पिछला टोकन तय होने तक शुरू नहीं हो सकता। यह क्रमिक बाधा ही कारण है कि आउटपुट जनरेशन इनपुट प्रोसेसिंग से काफ़ी धीमा होता है।
चूँकि मॉडल केवल आगे बढ़ सकता है, यह बाद की अंतर्दृष्टि के आधार पर पहले के टोकन को संशोधित नहीं कर सकता। यही कारण है कि chain-of-thought prompting सहायक है: मॉडल से उत्तर देने से पहले सोचने को कहकर, आप उसे अंतिम उत्तर पर प्रतिबद्ध होने से पहले समस्या पर काम करने का मौका देते हैं।
सभी जनरेटिव मॉडल ऑटोरिग्रेसिव नहीं हैं। Diffusion मॉडल एक साथ सब कुछ उत्पन्न करते हैं और iteratively परिष्कृत करते हैं। कुछ शोध non-autoregressive टेक्स्ट जनरेशन की खोज कर रहे हैं। लेकिन टेक्स्ट के लिए, ऑटोरिग्रेसिव प्रमुख बना हुआ है क्योंकि भाषा में एक मज़बूत क्रमिक संरचना है जिसका ऑटोरिग्रेसिव मॉडल स्वाभाविक रूप से लाभ उठाते हैं।