टोकन: परिभाषा और अर्थ — AI विकी

AI मॉडल द्वारा प्रक्रमित पाठ की बुनियादी इकाई। एक टोकन आमतौर पर एक शब्द या शब्द खंड होता है — "understanding" एक टोकन हो सकता है, जबकि "un" + "der" + "standing" तीन हो सकते हैं। औसतन, एक टोकन अंग्रेजी में एक शब्द के लगभग 3/4 होता है। मॉडल टोकन में पढ़ते हैं, सोचते हैं और चार्ज करते हैं।

यह क्यों मायने रखता है

टोकन AI की मुद्रा हैं। कंटेक्स्ट विंडो को टोकन में मापा जाता है। API की कीमत प्रति टोकन होती है। जब कोई प्रदाता "1M context" कहता है, तो वह 1 मिलियन टोकन का अर्थ बता रहा होता है, जो लगभग 750K शब्द होते हैं। टोकन के बारे में ज्ञान आपको लागत का अनुमान लगाने और उपयोग को अनुकूलित करने में मदद करता है।

गहन अध्ययन

Tokens एक tokenizer द्वारा बनाए जाते हैं, एक अलग algorithm जो आपके टेक्स्ट को न्यूरल नेटवर्क द्वारा देखे जाने से पहले चलता है। आज सबसे आम दृष्टिकोण Byte Pair Encoding (BPE) है, जिसका उपयोग GPT, Claude और Llama करते हैं। BPE व्यक्तिगत characters (या bytes) से शुरू होता है और सबसे लगातार जोड़ियों को नए tokens में iteratively मिला देता है। पर्याप्त मर्जर के बाद, "the" या "and" जैसे सामान्य शब्द एकल tokens बन जाते हैं, जबकि दुर्लभ या विशेष शब्द subword टुकड़ों में विभाजित हो जाते हैं। शब्द "tokenization" विशेष tokenizer के आधार पर "token" + "ization" या "token" + "iz" + "ation" बन सकता है। यह subword दृष्टिकोण आधुनिक मॉडलों को गलत-वर्तनी, नवशब्दों और कोड को उचित रूप से संभालने में सक्षम बनाता है — वे कभी भी एक सच में "अज्ञात" शब्द का सामना नहीं करते, बस ज्ञात टुकड़ों के अपरिचित संयोजन।

सभी tokenizer समान नहीं हैं

विभिन्न मॉडल विभिन्न शब्दावलियों के साथ विभिन्न tokenizers का उपयोग करते हैं, और यह अधिकांश लोगों के एहसास से कहीं अधिक मायने रखता है। GPT-4 के tokenizer (cl100k) में लगभग 100,000 token प्रकार हैं। Claude का tokenizer अलग है। Llama अभी एक और का उपयोग करता है। एक ही अंग्रेज़ी वाक्य अलग-अलग संख्या में tokens में tokenize हो सकता है यह इस पर निर्भर करता है कि आप किस मॉडल का उपयोग कर रहे हैं, जो सीधे context window के उपयोग और API लागत को प्रभावित करता है। कोड prose की तुलना में कम token-कुशल होता है क्योंकि variable नाम और syntax tokens अपनी खुद की शब्दावली प्रविष्टि अर्जित करने के लिए प्रशिक्षण डेटा में पर्याप्त बार दिखाई नहीं दे सकते। गैर-अंग्रेज़ी भाषाएँ बहुत अलग-अलग होती हैं — Latin scripts वाली भाषाएँ आम तौर पर अंग्रेज़ी के लगभग जितनी कुशलता से tokenize होती हैं, लेकिन चीनी, जापानी, कोरियाई, अरबी और हिंदी अक्सर समकक्ष अर्थ के लिए अधिक tokens की आवश्यकता होती है क्योंकि उनके characters tokenizer प्रशिक्षण के दौरान उतने भारी रूप से प्रतिनिधित्व नहीं किए गए होंगे।

शब्दावली का व्यापार-बंद

Tokenizer के शब्दावली आकार एक वास्तविक इंजीनियरिंग व्यापार-बंद बनाता है। एक बड़ी शब्दावली का अर्थ है कि सामान्य शब्दों और वाक्यांशों को अपने स्वयं के समर्पित tokens मिलते हैं, इसलिए आपका टेक्स्ट कम tokens में compress हो जाता है (सस्ता, तेज़, context में अधिक फ़िट होता है)। लेकिन एक बड़ी शब्दावली का अर्थ मॉडल के इनपुट और आउटपुट परतों पर एक बड़ी embedding table भी है, जो मॉडल आकार और मेमोरी उपयोग को बढ़ाता है। 4,096 की मॉडल dimension पर 100,000 tokens की शब्दावली के लिए embedding table पहले से ही 400 मिलियन parameters है — एक छोटे मॉडल का एक गैर-तुच्छ हिस्सा। यही कारण है कि शब्दावली आकार 32K–128K रेंज में clusterhone की प्रवृत्ति रखते हैं: यह संपीड़न दक्षता और parameter overhead के बीच मधुर बिंदु है।

अपने context का बजट बनाना

जब प्रदाता context windows का विज्ञापन करते हैं — 8K, 128K, 1M tokens — वे संख्याएँ सब कुछ शामिल करती हैं: आपका system prompt, आपकी बातचीत का इतिहास, कोई भी दस्तावेज़ जो आप paste करते हैं, और मॉडल की अपनी प्रतिक्रिया। एक आम डेवलपर गलती है context window को संदर्भ सामग्री से भर देना और मॉडल को एक substantive उत्तर generate करने के लिए बहुत कम tokens छोड़ना। अधिकांश APIs आपको प्रतिक्रिया के लिए एक max_tokens parameter सेट करने देते हैं, लेकिन यदि आपका इनपुट पहले से ही अधिकांश context window का उपभोग कर चुका है, तो मॉडल अपनी सोच को truncate कर सकता है या उत्तर देने से इनकार कर सकता है। व्यवहार में, आप बजट बनाना चाहते हैं: अपने मॉडल की context सीमा को जानें, अपने इनपुट आकार का अनुमान लगाएँ (3/4 शब्द नियम एक मोटा मार्गदर्शक है — परिशुद्धता के लिए, प्रदाता की tokenizer library का उपयोग करें), और आपको आवश्यक आउटपुट के लिए पर्याप्त जगह आरक्षित करें।

वाक्पटुता की कीमत

एक लागत आयाम भी है जिसे अधिकांश लोग कम आँकते हैं। API मूल्य निर्धारण स्तरों पर आउटपुट tokens आम तौर पर इनपुट tokens की तुलना में 3–5x अधिक महंगे होते हैं, क्योंकि प्रत्येक आउटपुट token को generate करने के लिए मॉडल के माध्यम से एक पूर्ण forward pass की आवश्यकता होती है, जबकि इनपुट tokens को समानांतर में प्रोसेस किया जा सकता है। यह विषमता का अर्थ है कि लंबी, वाक्पटु उत्तर देने वाला एक चैटबॉट संक्षिप्त होने के लिए प्रशिक्षित एक से नाटकीय रूप से अधिक खर्च करता है। यही कारण है कि prompt caching जैसी तकनीकें (कई अनुरोधों में प्रोसेस किए गए इनपुट tokens का पुन: उपयोग करना) ऐसे अनुप्रयोगों के लिए लागत को महत्वपूर्ण रूप से कम कर सकती हैं जो कई queries में एक सामान्य system prompt या दस्तावेज़ context साझा करते हैं। token economics को समझना केवल अकादमिक नहीं है — यह एक AI feature के बीच का अंतर है जो चलाने में $50/महीना खर्च करता है और एक जो $5,000 खर्च करता है।

टोकन