बड़ा भाषा मॉडल: परिभाषा और अर्थ — AI विकी

एक न्यूरल नेटवर्क जो बड़ी मात्रा में पाठ पर प्रशिक्षित किया गया है ताकि मनुष्य की भाषा को समझ सके और उत्पन्न कर सके। "लार्ज" शब्द पैरामीटर्स की संख्या (अरबों) और प्रशिक्षण डेटा के आकार (ट्रिलियन टोकन) को दर्शाता है। क्लॉड, जीपीटी, जेमिनी, लैमा और मिस्ट्रल सभी एलईएम हैं।

यह क्यों मायने रखता है

LLMs आप द्वारा उपयोग किए जाने वाले प्रत्येक AI चैट, कोड सहायक और टेक्स्ट जनरेटर के पीछे तकनीक हैं। उनके बारे में जानना (सांख्यिकीय पैटर्न मैचर, संज्ञानात्मक जीव —) उनके प्रभावी उपयोग और सीमाओं को पहचानने में आपकी सहायता करता है।

गहन अध्ययन

एलएलएम के मूल में, एक फ़ंक्शन होता है जो टोकन के अनुक्रम को लेता है और अगले टोकन के ऊपर प्रायिकता वितरण निकालता है। यही पूरा ट्रिक है। प्रशिक्षण के दौरान, मॉडल ट्रिलियन टोकन के टेक्स्ट को देखता है और अपने अरबों पैरामीटर को समायोजित करता है ताकि अगले क्या आएगा उसकी भविष्यवाणी बेहतर बने। जब आप क्लॉड या जीपीटी के साथ चैट करते हैं, तो मॉडल हर बार एक टोकन उत्पन्न करता है, प्रत्येक बार अपने पिछले आउटपुट को वापस इनपुट के रूप में फीड करता है। यह स्व-विलोपी प्रक्रिया ही है जिसके कारण आप शब्द द्वारा शब्द जवाब देखते हैं — मॉडल वास्तव में अगला क्या कहेगा उसके बारे में तब तक नहीं जानता जब तक वह वहां नहीं पहुंचता।

ट्रांसफॉर्मर बैकबोन

अधिकांश आधुनिक एलएलएम ट्रांसफॉर्मर आर्किटेक्चर पर बने होते हैं, जिसे 2017 में गूगल के अनुसंधानकर्ताओं द्वारा पेश किया गया था। ट्रांसफॉर्मर की मुख्य नवाचार ध्यान यंत्र है, जो मॉडल को एक दिए गए टोकन के अर्थ निर्धारित करते समय प्रविष्टि में अन्य सभी टोकन को देखने की अनुमति देता है। यह पहले की आर्किटेक्चर (आरएनएन, एलएसटीएम) के एक समस्या को हल करता है: वे लंबी दूरी वाली निर्भरताओं के साथ कठिनाई से निपटते थे क्योंकि जानकारी प्रत्येक मध्य चरण से अनुक्रमित रूप से प्रवाहित होती थी। ध्यान मॉडल को अपने वाक्य पांच में "इसे" को पहले वाक्य में "डेटाबेस सर्वर" से सीधे जोड़ने की अनुमति देता है, चाहे उनके बीच कितना टेक्स्ट हो। कुछ नए आर्किटेक्चर जैसे मम्बा ध्यान के बजाय अवस्था-खंड मॉडल का उपयोग करते हैं, लंबे अनुक्रमों पर बहुत बेहतर दक्षता के बदले कुछ लचीलापन को त्यागते हैं, लेकिन ट्रांसफॉर्मर अभी भी सबसे बड़े मॉडलों के लिए वर्चस्व आर्किटेक्चर बने रहते हैं।

माप क्यों महत्वपूर्ण है

"बड़ा" एलएलएम में वास्तव में काम कर रहा है। माप ऐसे तरीकों से महत्वपूर्ण होता है जिनका अनुसंधानकर्ताओं द्वारा पूरी तरह से अपेक्षा नहीं की गई थी। एक 1 अरब पैरामीटर मॉडल बुनियादी व्याकरण और सरल तथ्यों को संभाल सकता है। 70 अरब पैरामीटर मॉडल काम करने वाले कोड लिख सकता है और बहु-चरण समस्याओं के माध्यम से तर्क दे सकता है। सबसे बड़े मॉडल (हजारों अरब पैरामीटर, ट्रिलियन टोकन पर प्रशिक्षित) अपनाने वाली क्षमताओं को प्रदर्शित करते हैं — जो कौशल अचानक बड़े पैमाने पर दिखाई देते हैं बजाय धीरे-धीरे सुधार के। चैन-ऑफ-थॉट तर्क, बहुभाषी स्थानांतरण, और संदर्भ में सीखना सभी क्षमताएं हैं जो तब तक विश्वसनीय रूप से दिखाई देते हैं जब तक मॉडल निश्चित आकार के अंतर को पार नहीं करते। यह पैमाना व्यवहार एक "स्केलिंग लॉ" द्वारा वर्णित किया जाता है जो मॉडल आकार, डेटासेट आकार, और कम्प्यूट के बजट को प्रदर्शन से अच्छी तरह से अनुमानित तरीकों से संबंधित करता है।

एलएलएम से सहायक तक

प्री-ट्रेनिंग के बाद, कच्चे एलएलएम बातचीत के लिए विशेष रूप से उपयोगी नहीं होते — वे केवल टेक्स्ट पूरा करना चाहते हैं, इसलिए वे आपके प्रश्न के साथ अधिक प्रश्नों के साथ जारी रख सकते हैं बजाय जवाब देने के। यहां संरेखन आता है। RLHF (मानव प्रतिक्रिया से बल प्रशिक्षण) और संविधान एआई जैसी तकनीकें मॉडल को एक टेक्स्

बड़ा भाषा मॉडल

यह क्यों मायने रखता है

गहन अध्ययन

ट्रांसफॉर्मर बैकबोन

माप क्यों महत्वपूर्ण है

एलएलएम से सहायक तक

संबंधित अवधारणाएँ