एल्गोरिदम: (1) अलग-अलग बाइट्स (256 प्रविष्टियां) या अक्षरों की एक आधार शब्दावली से शुरू करें, (2) प्रशिक्षण कॉर्पस को स्कैन करें और हर आसपास के टोकन जोड़े को गिनें, (3) सबसे अधिक बार आने वाले जोड़े को एक नए टोकन में मिला दें और इसे शब्दावली में जोड़ें, (4) चरण 2–3 को तब तक दोहराएं जब तक शब्दावली लक्ष्य आकार (आमतौर पर 32K–128K) तक नहीं पहुंच जाती। मर्ज क्रम एक प्राथमिकता निर्धारित करता है: "th" मर्ज #50 हो सकता है जबकि "ing" मर्ज #200 है, जिसका अर्थ है कि "th" इस टोकनाइज़र में एक अधिक मौलिक इकाई है।
SentencePiece (Google) एक लोकप्रिय BPE कार्यान्वयन है जो इनपुट को पूर्व-टोकनाइज़ किए गए शब्दों के बजाय कच्चे बाइट्स के रूप में मानता है। इसका मतलब यह है कि यह बिना भाषा-विशिष्ट प्रीप्रोसेसिंग के किसी भी भाषा को संभाल सकता है — चीनी में शब्द विभाजन या तुर्की में रूपात्मक विश्लेषण की आवश्यकता नहीं। अधिकांश आधुनिक LLM SentencePiece या इसी तरह के बाइट-लेवल BPE वैरिएंट का उपयोग करते हैं। विकल्प, WordPiece (BERT द्वारा उपयोग किया गया), समान है लेकिन थोड़ा अलग मर्ज मानदंड का उपयोग करता है।
BPE मर्ज प्रशिक्षण कॉर्पस के आंकड़ों को दर्शाते हैं। अंग्रेज़ी कोड पर प्रशिक्षित टोकनाइज़र "function," "return," और "const" के लिए कुशल मर्ज प्राप्त करता है लेकिन हिंदी या अरबी टेक्स्ट को खंडित करता है। यही कारण है कि बहुभाषी टोकनाइज़र को संतुलित प्रशिक्षण कॉर्पस की आवश्यकता होती है — मर्ज तालिका को हर भाषा के सामान्य पैटर्न के लिए पर्याप्त मर्ज आवंटित करने चाहिए। Llama 3 के टोकनाइज़र ने स्पष्ट रूप से अधिक संतुलित बहुभाषी डेटा पर प्रशिक्षण लिया, जिससे Llama 2 की तुलना में गैर-अंग्रेज़ी टोकन दक्षता में 2–3x सुधार हुआ।