Zubnet AIसीखेंWiki › टोकनाइज़र
मूल तत्व

टोकनाइज़र

इसे यह भी कहते हैं: टोकनाइज़ेशन (Tokenization)
वह एल्गोरिदम जो कच्चे टेक्स्ट को टोकन में बदलता है ताकि मॉडल उसे प्रोसेस कर सके। एक टोकनाइज़र टोकन प्रकारों की एक निश्चित शब्दावली रखता है और किसी भी इनपुट टेक्स्ट को उन टोकन के क्रम में विभाजित करता है। अलग-अलग मॉडल अलग-अलग टोकनाइज़र का उपयोग करते हैं — एक ही वाक्य Claude, GPT और Llama के लिए अलग-अलग तरीके से टोकनाइज़ होता है, जो context उपयोग और लागत को प्रभावित करता है।

यह क्यों मायने रखता है

टोकनाइज़र आपके टेक्स्ट और मॉडल के बीच की अदृश्य परत है। यह निर्धारित करता है कि आपके प्रॉम्प्ट पर कितने टोकन खर्च होते हैं, कुछ भाषाएँ दूसरों से अधिक महंगी क्यों हैं, और कोड कभी-कभी गद्य से तेज़ी से context का उपयोग क्यों करता है। जब आप context सीमा तक पहुँचते हैं या अप्रत्याशित API लागत देखते हैं, तो टोकनाइज़र आमतौर पर स्पष्टीकरण होता है।

गहन अध्ययन

अधिकांश आधुनिक टोकनाइज़र Byte Pair Encoding (BPE) या इसके एक संस्करण SentencePiece का उपयोग करते हैं। BPE व्यक्तिगत bytes या characters से शुरू होता है और बार-बार सबसे अधिक आवृत्ति वाले आसन्न जोड़े को एक नए टोकन में मिला देता है। हज़ारों विलय के बाद, "the" जैसे सामान्य शब्द एकल टोकन बन जाते हैं, जबकि दुर्लभ शब्द subword टुकड़ों में विभाजित हो जाते हैं।

शब्दावली का आकार मायने रखता है

टोकनाइज़र का शब्दावली आकार एक वास्तविक इंजीनियरिंग ट्रेड-ऑफ है। बड़ी शब्दावलियाँ (100K+ टोकन) टेक्स्ट को अधिक कुशलता से compress करती हैं — सामान्य शब्दों और वाक्यांशों को समर्पित टोकन मिलते हैं, इसलिए कम context का उपयोग होता है। लेकिन बड़ी शब्दावलियों का अर्थ मॉडल की इनपुट और आउटपुट परतों में बड़ी embedding table भी है।

बहुभाषी कर

टोकनाइज़र एक corpus पर प्रशिक्षित होते हैं, और उस corpus का भाषा वितरण दक्षता निर्धारित करता है। अंग्रेज़ी टेक्स्ट आमतौर पर लगभग 1 टोकन प्रति शब्द की दर से टोकनाइज़ होता है। लेकिन चीनी, जापानी, कोरियाई, अरबी और हिंदी जैसी भाषाओं को समकक्ष अर्थ के लिए 2–4 गुना अधिक टोकन की आवश्यकता हो सकती है।

टोकनाइज़र से उत्पन्न विचित्रताएँ

टोकनाइज़ेशन की विचित्रताएँ कई LLM व्यवहारों की व्याख्या करती हैं जो लोगों को भ्रमित करती हैं। मॉडल character-स्तर के कार्यों में कठिनाई का सामना करते हैं ("strawberry" में अक्षर गिनना) क्योंकि वे characters नहीं बल्कि टोकन देखते हैं। वे कुछ variable नामों को दूसरों से बेहतर संभालते हैं क्योंकि सामान्य नाम एकल टोकन होते हैं जबकि असामान्य नाम टूट जाते हैं।

संबंधित अवधारणाएँ

← सभी शब्द
← टोकन डिफ़्यूज़न मॉडल →
ESC