मॉडल: परिभाषा और अर्थ — AI विकी

एक प्रशिक्षित गणितीय प्रणाली जो इनपुट लेती है और डेटा से सीखे गए पैटर्न के आधार पर आउटपुट उत्पन्न करती है। एआई में, "मॉडल" वह सामान्य शब्द है जिसका आप वास्तव में उपयोग करते हैं — क्या यह GPT-4 टेक्स्ट उत्पन्न करता है, स्टेबल डिफ्यूजन छवियाँ उत्पन्न करता है या विश्वर बोली को लिखित रूप में बदलता है। एक मॉडल अपने आर्किटेक्चर (इसकी संरचना), अपने पैरामीटर्स (इसके द्वारा सीखा गया कुछ) और अपने ट्रेनिंग डेटा (इसके द्वारा किससे सीखा गया) द्वारा परिभाषित किया जाता है। जब कोई कहता है, "मुझे कौन सा मॉडल इस्तेमाल करना चाहिए?" तो वे इसी बारे में पूछ रहे होते हैं।

यह क्यों मायने रखता है

मॉडल AI में सबसे अधिक उपयोग किया जाने वाला शब्द है, और यह विभिन्न संदर्भों में विभिन्न बातों का अर्थ रखता है। एक "मॉडल" आर्किटेक्चर (ट्रांसफॉर्मर), एक विशिष्ट प्रशिक्षित इंस्टेंस (क्लॉड ओपस 4.6), डिस्क पर एक फ़ाइल (एक .gguf फ़ाइल), या एक API एंडपॉइंट के रूप में संदर्भित किया जा सकता है। एक मॉडल क्या है — और यह क्या नहीं है — को समझना सब कुछ के लिए आधार है।

गहन अध्ययन

एक मॉडल तीन चीज़ें हैं जो आपस में जुड़ी हैं: एक आर्किटेक्चर, parameters का एक सेट, और इसके प्रशिक्षण डेटा का प्रेत। आर्किटेक्चर ब्लूप्रिंट है — यह परिभाषित करता है कि सूचना सिस्टम के माध्यम से कैसे प्रवाहित होती है। एक Transformer attention mechanisms की layers के माध्यम से टेक्स्ट को प्रोसेस करता है। एक डिफ़्यूज़न मॉडल random noise को iteratively denoise करके छवियाँ बनाता है। एक Mamba मॉडल attention के बिना अनुक्रमों को प्रोसेस करने के लिए selective state spaces का उपयोग करता है। आर्किटेक्चर निर्धारित करता है कि मॉडल किस प्रकार का इनपुट संभाल सकता है और किस प्रकार का आउटपुट उत्पन्न कर सकता है, लेकिन अपने आप में यह कुछ नहीं करता। यह बिना किसी ज्ञान के एक खाली संरचना है।

Parameters ही ज्ञान हैं। प्रशिक्षण के दौरान, मॉडल लाखों या अरबों संख्यात्मक weights को समायोजित करता है जब तक कि वह अपने प्रशिक्षण डेटा की भविष्यवाणी अच्छी तरह से नहीं कर सकता। ये weights वह सब कुछ encode करते हैं जो मॉडल "जानता है" — व्याकरण, तथ्य, तर्क पैटर्न, शैली, पूर्वाग्रह। जब लोग कहते हैं कि एक मॉडल में 70 अरब parameters हैं, तो उनका मतलब 70 अरब सीखी गई संख्याएँ हैं जो सामूहिक रूप से उन पैटर्न का प्रतिनिधित्व करती हैं जो मॉडल ने अपने प्रशिक्षण कोष से निकाले हैं। Parameters सबसे ठोस अर्थ में मॉडल हैं: वे वह फ़ाइल हैं जिसे आप डाउनलोड करते हैं, वह चीज़ जो GPU मेमोरी में लोड होती है, वह कलाकृति जो आर्किटेक्चर को क्षमता में बदलती है।

मॉडल फ़ॉर्मैट और उनका अर्थ

जब आप एक मॉडल डाउनलोड करते हैं, तो आप उन parameters को एक फ़ाइल में serialize किया हुआ डाउनलोड कर रहे हैं। फ़ॉर्मैट उससे ज़्यादा मायने रखता है जितना आप सोच सकते हैं। PyTorch .pt या .bin फ़ाइलें PyTorch में प्रशिक्षित मॉडलों के लिए मूल फ़ॉर्मैट हैं — वे Python के pickle serialization का उपयोग करती हैं, जिसका अर्थ है कि वे तकनीकी रूप से मनमाना कोड शामिल कर सकती हैं। यदि आप अविश्वसनीय स्रोतों से मॉडल डाउनलोड करते हैं तो यह एक वास्तविक सुरक्षा चिंता है। Hugging Face द्वारा विकसित Safetensors, इसे केवल कच्चे tensor डेटा को एक ऐसे फ़ॉर्मैट में संग्रहीत करके हल करता है जो कोड execute नहीं कर सकता। यह load करने में भी तेज़ है क्योंकि यह memory-mapped access का समर्थन करता है। अधिकांश मॉडल repositories ने डिफ़ॉल्ट के रूप में safetensors पर स्विच किया है।

GGUF पूरी तरह से एक अलग प्राणी है। llama.cpp समुदाय द्वारा विकसित, GGUF उपभोक्ता हार्डवेयर पर CPU और मिश्रित CPU/GPU इन्फ़ेरेंस के लिए डिज़ाइन किया गया है। यह मॉडल weights को quantization, tokenizer कॉन्फ़िगरेशन और आर्किटेक्चर विवरण के बारे में मेटाडेटा के साथ एक एकल स्व-निहित फ़ाइल में पैक करता है। यदि आप किसी को MacBook पर 70B मॉडल चलाते देखते हैं, तो वे लगभग निश्चित रूप से एक GGUF फ़ाइल का उपयोग कर रहे हैं जिसे 4-bit या 5-bit परिशुद्धता तक quantize किया गया है। ONNX (Open Neural Network Exchange) एक और दृष्टिकोण लेता है — यह एक interoperability फ़ॉर्मैट है जो आपको एक framework में मॉडल को प्रशिक्षित करने और दूसरे में चलाने देने के लिए डिज़ाइन किया गया है, अक्सर runtime द्वारा लागू किए गए हार्डवेयर-विशिष्ट optimizations के साथ।

मॉडल जीवनचक्र

मॉडल एक जीवनचक्र से गुज़रते हैं जिसे अधिकांश उपयोगकर्ता कभी नहीं देखते। पूर्व-प्रशिक्षण महंगा हिस्सा है: एक फाउंडेशन मॉडल को सैकड़ों हज़ारों से लेकर सैकड़ों मिलियन डॉलर तक की लागत पर बड़ी मात्रा में डेटा (बड़े भाषा मॉडलों के लिए अक्सर खरबों tokens) पर प्रशिक्षित किया जाता है। यह एक base मॉडल उत्पन्न करता है जो टेक्स्ट की भविष्यवाणी कर सकता है लेकिन बातचीत के लिए विशेष रूप से उपयोगी नहीं है। Fine-tuning base मॉडल को विशिष्ट कार्यों — निर्देश पालन, कोड जनरेशन, चिकित्सा निदान — के लिए बहुत छोटे, क्यूरेटेड डेटासेट का उपयोग करके अनुकूलित करता है। RLHF या समान alignment तकनीकें मॉडल के आउटपुट को अधिक सहायक और कम हानिकारक बनाती हैं। Quantization मॉडल की परिशुद्धता को 16-bit या 32-bit floating point से 8-bit, 4-bit, या उससे भी कम तक compress करता है, मेमोरी और कंप्यूट आवश्यकताओं में नाटकीय कमी के लिए गुणवत्ता की एक छोटी मात्रा का व्यापार करता है। Deployment मॉडल को एक API के पीछे रखता है या इसे एक डिवाइस पर लोड करता है। Serving बड़े पैमाने पर वास्तविक इन्फ़ेरेंस अनुरोधों को संभालता है।

ओपन बनाम क्लोज़्ड मॉडल

ओपन और क्लोज़्ड मॉडलों के बीच का अंतर जितना सुनाई देता है उससे अधिक धुंधला है। जब Meta Llama "रिलीज़" करता है, तो वे मॉडल weights प्रकाशित करते हैं — आप parameters डाउनलोड कर सकते हैं और मॉडल को अपने हार्डवेयर पर चला सकते हैं। लेकिन वे प्रशिक्षण डेटा या पूर्ण प्रशिक्षण कोड रिलीज़ नहीं करते। Mistral कुछ इसी तरह करता है। इन्हें अधिक सटीक रूप से "ओपन-वेट" मॉडल कहा जाता है। वास्तव में ओपन-सोर्स मॉडलों में weights, प्रशिक्षण डेटा, प्रशिक्षण कोड और मूल्यांकन पाइपलाइनें शामिल होंगी — एक ऐसा मानक जिसे लगभग कोई भी पूरा नहीं करता। दूसरी ओर, GPT-4 और Claude जैसे क्लोज़्ड मॉडल केवल APIs के माध्यम से उपलब्ध हैं। आप कभी भी weights नहीं देखते, आप मॉडल को संशोधित नहीं कर सकते, और आप प्रदाता की सेवा की शर्तों के अधीन हैं। व्यावहारिक अंतर बहुत बड़ा है: ओपन-वेट मॉडल आपको नियंत्रण, गोपनीयता, और fine-tune करने की क्षमता देते हैं, लेकिन आप कंप्यूट के लिए भुगतान करते हैं और परिचालन जटिलता उठाते हैं। क्लोज़्ड मॉडल आपको सुविधा और अक्सर बेहतर प्रदर्शन देते हैं, लेकिन आप किसी और के सिस्टम तक एक्सेस किराए पर ले रहे हैं।

व्यवहार में मॉडल चुनना

बेंचमार्क मॉडलों की तुलना करने का मानक तरीका हैं, और वे गहराई से अविश्वसनीय हैं। एक मॉडल जो MMLU (एक बहु-विकल्पीय ज्ञान परीक्षण) पर सबसे अधिक स्कोर करता है, आपके विशिष्ट कार्य के साथ संघर्ष कर सकता है। बेंचमार्क contamination — जहाँ test डेटा प्रशिक्षण डेटा में leak हो जाता है — व्यापक है और इसका पता लगाना कठिन है। Chatbot Arena, जो blind मानव वरीयता वोटों के आधार पर मॉडलों को rank करता है, अधिक विश्वसनीय है लेकिन फिर भी डोमेन-विशिष्ट प्रदर्शन के बजाय सामान्य संवादात्मक गुणवत्ता को दर्शाता है। एक मॉडल चुनने का एकमात्र विश्वसनीय तरीका है उम्मीदवारों को अपने वास्तविक workload पर परखना। दस प्रतिनिधि prompts लिखें, उन्हें तीन या चार मॉडलों के माध्यम से चलाएँ, और आउटपुट की तुलना करें। वह एक घंटे का निवेश आपको किसी भी leaderboard से अधिक बताएगा।

मॉडल