Zubnet AIसीखेंWiki › BPE
मूल तत्व

BPE

इसे भी कहा जाता है: बाइट पेयर एन्कोडिंग, सबवर्ड टोकनाइज़ेशन
टोकनाइज़र शब्दकोश बनाने के लिए सबसे आम एल्गोरिदम। BPE अलग-अलग बाइट्स या अक्षरों से शुरू होता है और सबसे अधिक बार आने वाले आसपास के जोड़ों को बार-बार मिलाकर एक नया टोकन बनाता है। हज़ारों मर्ज के बाद, सामान्य शब्द एक ही टोकन बन जाते हैं ("the," "function") जबकि दुर्लभ शब्द सबवर्ड टुकड़ों में विभाजित होते हैं ("un" + "common")। GPT, Claude, Llama, और अधिकांश आधुनिक LLM इसका उपयोग करते हैं।

यह क्यों मायने रखता है

BPE वह कारण है जिससे आपका टोकनाइज़र उस तरह से काम करता है जैसा वह करता है। यह बताता है कि सामान्य शब्द सस्ते क्यों हैं (एक टोकन), दुर्लभ शब्द महंगे क्यों हैं (कई टोकन), और गैर-अंग्रेज़ी टेक्स्ट अधिक महंगा क्यों होता है (गैर-अंग्रेज़ी अक्षर जोड़ों के लिए कम मर्ज आवंटित)। BPE को समझने से आप टोकन काउंट का अनुमान लगा सकते हैं, प्रॉम्प्ट को ऑप्टिमाइज़ कर सकते हैं, और यह समझ सकते हैं कि अलग-अलग टोकनाइज़र एक ही टेक्स्ट के लिए अलग-अलग परिणाम क्यों देते हैं।

गहन अध्ययन

एल्गोरिदम: (1) अलग-अलग बाइट्स (256 प्रविष्टियां) या अक्षरों की एक आधार शब्दावली से शुरू करें, (2) प्रशिक्षण कॉर्पस को स्कैन करें और हर आसपास के टोकन जोड़े को गिनें, (3) सबसे अधिक बार आने वाले जोड़े को एक नए टोकन में मिला दें और इसे शब्दावली में जोड़ें, (4) चरण 2–3 को तब तक दोहराएं जब तक शब्दावली लक्ष्य आकार (आमतौर पर 32K–128K) तक नहीं पहुंच जाती। मर्ज क्रम एक प्राथमिकता निर्धारित करता है: "th" मर्ज #50 हो सकता है जबकि "ing" मर्ज #200 है, जिसका अर्थ है कि "th" इस टोकनाइज़र में एक अधिक मौलिक इकाई है।

SentencePiece

SentencePiece (Google) एक लोकप्रिय BPE कार्यान्वयन है जो इनपुट को पूर्व-टोकनाइज़ किए गए शब्दों के बजाय कच्चे बाइट्स के रूप में मानता है। इसका मतलब यह है कि यह बिना भाषा-विशिष्ट प्रीप्रोसेसिंग के किसी भी भाषा को संभाल सकता है — चीनी में शब्द विभाजन या तुर्की में रूपात्मक विश्लेषण की आवश्यकता नहीं। अधिकांश आधुनिक LLM SentencePiece या इसी तरह के बाइट-लेवल BPE वैरिएंट का उपयोग करते हैं। विकल्प, WordPiece (BERT द्वारा उपयोग किया गया), समान है लेकिन थोड़ा अलग मर्ज मानदंड का उपयोग करता है।

प्रशिक्षण कॉर्पस मायने रखता है

BPE मर्ज प्रशिक्षण कॉर्पस के आंकड़ों को दर्शाते हैं। अंग्रेज़ी कोड पर प्रशिक्षित टोकनाइज़र "function," "return," और "const" के लिए कुशल मर्ज प्राप्त करता है लेकिन हिंदी या अरबी टेक्स्ट को खंडित करता है। यही कारण है कि बहुभाषी टोकनाइज़र को संतुलित प्रशिक्षण कॉर्पस की आवश्यकता होती है — मर्ज तालिका को हर भाषा के सामान्य पैटर्न के लिए पर्याप्त मर्ज आवंटित करने चाहिए। Llama 3 के टोकनाइज़र ने स्पष्ट रूप से अधिक संतुलित बहुभाषी डेटा पर प्रशिक्षण लिया, जिससे Llama 2 की तुलना में गैर-अंग्रेज़ी टोकन दक्षता में 2–3x सुधार हुआ।

संबंधित अवधारणाएँ

← सभी शब्द
← BLEU और ROUGE Bria →