शब्दावली (Vocabulary): परिभाषा और अर्थ — AI विकी

टोकन का एक निश्चित सेट जिसे एक मॉडल पहचान और उत्पन्न कर सकता है। शब्दावली प्रशिक्षण के दौरान tokenizer द्वारा बनाई जाती है और आमतौर पर 32K से 128K प्रविष्टियाँ होती हैं — सामान्य शब्द, उपशब्द खंड, व्यक्तिगत अक्षर, और विशेष टोकन। मॉडल जो भी टेक्स्ट प्रोसेस करता है वह इस शब्दावली के टोकनों के अनुक्रम के रूप में व्यक्त होना चाहिए। जो टोकन शब्दावली में नहीं हैं उन्हें छोटे टुकड़ों में तोड़ा जाता है जो शब्दावली में हैं।

यह क्यों मायने रखता है

शब्दावली निर्धारित करती है कि मॉडल क्या "देख" सकता है। मुख्य रूप से अंग्रेज़ी पर प्रशिक्षित शब्दावली अंग्रेज़ी को कुशलता से संभालेगी (प्रति शब्द एक टोकन) लेकिन चीनी, अरबी, या कोड को कई छोटे टोकनों में विभाजित कर सकती है (महंगा, धीमा, कम संदर्भ)। शब्दावली डिज़ाइन मॉडल विकास में सबसे महत्वपूर्ण और सबसे कम चर्चित निर्णयों में से एक है।

गहन अध्ययन

शब्दावली बनाना: tokenizer एल्गोरिथ्म (आमतौर पर BPE) व्यक्तिगत बाइट्स या अक्षरों से शुरू होता है और पुनरावर्ती रूप से सबसे लगातार जोड़ों को मर्ज करता है। 32K–128K मर्ज के बाद, आपके पास एक शब्दावली होती है जहाँ सामान्य शब्द एकल टोकन हैं ("the," "and," "function") और दुर्लभ शब्द उपशब्द टुकड़ों में विभाजित होते हैं ("un" + "common," "pre" + "process" + "ing")। विशेष टोकन जैसे <BOS> (अनुक्रम की शुरुआत), <EOS> (अंत), और <PAD> (पैडिंग) स्पष्ट रूप से जोड़े जाते हैं।

आकार का ट्रेड-ऑफ

बड़ी शब्दावली टेक्स्ट को बेहतर संकुचित करती है (प्रति वाक्य कम टोकन = सस्ता, संदर्भ में अधिक फिट) लेकिन मॉडल की embedding टेबल का आकार बढ़ाती है। 4096-आयामी embeddings के साथ 128K शब्दावली सिर्फ़ token टेबल के लिए ~500M पैरामीटर जोड़ती है। 7B मॉडल के लिए, यह कुल पैरामीटरों का 7% है जो सिर्फ़ टोकन को vectors में मैप करने में खर्च होता है। 1B मॉडल के लिए, यह 50% होगा। इसीलिए छोटे मॉडल आमतौर पर छोटी शब्दावली का उपयोग करते हैं।

बहुभाषी शब्दावली

शब्दावली की भाषा कवरेज उसके प्रशिक्षण कॉर्पस पर निर्भर करती है। Llama के शुरुआती tokenizer को मुख्य रूप से अंग्रेज़ी पर प्रशिक्षित किया गया था और चीनी अक्षरों को 3–4 टोकन प्रत्येक के रूप में प्रदर्शित करता था, जिससे चीनी inference अंग्रेज़ी की तुलना में 3–4x अधिक महंगा हो जाता था। Llama 3 के tokenizer को अधिक संतुलित बहुभाषी डेटा पर प्रशिक्षित किया गया, जिससे गैर-अंग्रेज़ी दक्षता में नाटकीय सुधार हुआ। यह एक हल करने योग्य समस्या है, लेकिन इसके लिए जानबूझकर प्रयास की आवश्यकता है — डिफ़ॉल्ट अंग्रेज़ी-प्रधान है।

शब्दावली (Vocabulary)

यह क्यों मायने रखता है

गहन अध्ययन

आकार का ट्रेड-ऑफ

बहुभाषी शब्दावली

संबंधित अवधारणाएँ