अधिकांश आधुनिक टोकनाइज़र Byte Pair Encoding (BPE) या इसके एक संस्करण SentencePiece का उपयोग करते हैं। BPE व्यक्तिगत bytes या characters से शुरू होता है और बार-बार सबसे अधिक आवृत्ति वाले आसन्न जोड़े को एक नए टोकन में मिला देता है। हज़ारों विलय के बाद, "the" जैसे सामान्य शब्द एकल टोकन बन जाते हैं, जबकि दुर्लभ शब्द subword टुकड़ों में विभाजित हो जाते हैं।
टोकनाइज़र का शब्दावली आकार एक वास्तविक इंजीनियरिंग ट्रेड-ऑफ है। बड़ी शब्दावलियाँ (100K+ टोकन) टेक्स्ट को अधिक कुशलता से compress करती हैं — सामान्य शब्दों और वाक्यांशों को समर्पित टोकन मिलते हैं, इसलिए कम context का उपयोग होता है। लेकिन बड़ी शब्दावलियों का अर्थ मॉडल की इनपुट और आउटपुट परतों में बड़ी embedding table भी है।
टोकनाइज़र एक corpus पर प्रशिक्षित होते हैं, और उस corpus का भाषा वितरण दक्षता निर्धारित करता है। अंग्रेज़ी टेक्स्ट आमतौर पर लगभग 1 टोकन प्रति शब्द की दर से टोकनाइज़ होता है। लेकिन चीनी, जापानी, कोरियाई, अरबी और हिंदी जैसी भाषाओं को समकक्ष अर्थ के लिए 2–4 गुना अधिक टोकन की आवश्यकता हो सकती है।
टोकनाइज़ेशन की विचित्रताएँ कई LLM व्यवहारों की व्याख्या करती हैं जो लोगों को भ्रमित करती हैं। मॉडल character-स्तर के कार्यों में कठिनाई का सामना करते हैं ("strawberry" में अक्षर गिनना) क्योंकि वे characters नहीं बल्कि टोकन देखते हैं। वे कुछ variable नामों को दूसरों से बेहतर संभालते हैं क्योंकि सामान्य नाम एकल टोकन होते हैं जबकि असामान्य नाम टूट जाते हैं।