एक मॉडल तीन चीज़ें हैं जो आपस में जुड़ी हैं: एक आर्किटेक्चर, parameters का एक सेट, और इसके प्रशिक्षण डेटा का प्रेत। आर्किटेक्चर ब्लूप्रिंट है — यह परिभाषित करता है कि सूचना सिस्टम के माध्यम से कैसे प्रवाहित होती है। एक Transformer attention mechanisms की layers के माध्यम से टेक्स्ट को प्रोसेस करता है। एक डिफ़्यूज़न मॉडल random noise को iteratively denoise करके छवियाँ बनाता है। एक Mamba मॉडल attention के बिना अनुक्रमों को प्रोसेस करने के लिए selective state spaces का उपयोग करता है। आर्किटेक्चर निर्धारित करता है कि मॉडल किस प्रकार का इनपुट संभाल सकता है और किस प्रकार का आउटपुट उत्पन्न कर सकता है, लेकिन अपने आप में यह कुछ नहीं करता। यह बिना किसी ज्ञान के एक खाली संरचना है।
Parameters ही ज्ञान हैं। प्रशिक्षण के दौरान, मॉडल लाखों या अरबों संख्यात्मक weights को समायोजित करता है जब तक कि वह अपने प्रशिक्षण डेटा की भविष्यवाणी अच्छी तरह से नहीं कर सकता। ये weights वह सब कुछ encode करते हैं जो मॉडल "जानता है" — व्याकरण, तथ्य, तर्क पैटर्न, शैली, पूर्वाग्रह। जब लोग कहते हैं कि एक मॉडल में 70 अरब parameters हैं, तो उनका मतलब 70 अरब सीखी गई संख्याएँ हैं जो सामूहिक रूप से उन पैटर्न का प्रतिनिधित्व करती हैं जो मॉडल ने अपने प्रशिक्षण कोष से निकाले हैं। Parameters सबसे ठोस अर्थ में मॉडल हैं: वे वह फ़ाइल हैं जिसे आप डाउनलोड करते हैं, वह चीज़ जो GPU मेमोरी में लोड होती है, वह कलाकृति जो आर्किटेक्चर को क्षमता में बदलती है।
जब आप एक मॉडल डाउनलोड करते हैं, तो आप उन parameters को एक फ़ाइल में serialize किया हुआ डाउनलोड कर रहे हैं। फ़ॉर्मैट उससे ज़्यादा मायने रखता है जितना आप सोच सकते हैं। PyTorch .pt या .bin फ़ाइलें PyTorch में प्रशिक्षित मॉडलों के लिए मूल फ़ॉर्मैट हैं — वे Python के pickle serialization का उपयोग करती हैं, जिसका अर्थ है कि वे तकनीकी रूप से मनमाना कोड शामिल कर सकती हैं। यदि आप अविश्वसनीय स्रोतों से मॉडल डाउनलोड करते हैं तो यह एक वास्तविक सुरक्षा चिंता है। Hugging Face द्वारा विकसित Safetensors, इसे केवल कच्चे tensor डेटा को एक ऐसे फ़ॉर्मैट में संग्रहीत करके हल करता है जो कोड execute नहीं कर सकता। यह load करने में भी तेज़ है क्योंकि यह memory-mapped access का समर्थन करता है। अधिकांश मॉडल repositories ने डिफ़ॉल्ट के रूप में safetensors पर स्विच किया है।
GGUF पूरी तरह से एक अलग प्राणी है। llama.cpp समुदाय द्वारा विकसित, GGUF उपभोक्ता हार्डवेयर पर CPU और मिश्रित CPU/GPU इन्फ़ेरेंस के लिए डिज़ाइन किया गया है। यह मॉडल weights को quantization, tokenizer कॉन्फ़िगरेशन और आर्किटेक्चर विवरण के बारे में मेटाडेटा के साथ एक एकल स्व-निहित फ़ाइल में पैक करता है। यदि आप किसी को MacBook पर 70B मॉडल चलाते देखते हैं, तो वे लगभग निश्चित रूप से एक GGUF फ़ाइल का उपयोग कर रहे हैं जिसे 4-bit या 5-bit परिशुद्धता तक quantize किया गया है। ONNX (Open Neural Network Exchange) एक और दृष्टिकोण लेता है — यह एक interoperability फ़ॉर्मैट है जो आपको एक framework में मॉडल को प्रशिक्षित करने और दूसरे में चलाने देने के लिए डिज़ाइन किया गया है, अक्सर runtime द्वारा लागू किए गए हार्डवेयर-विशिष्ट optimizations के साथ।
मॉडल एक जीवनचक्र से गुज़रते हैं जिसे अधिकांश उपयोगकर्ता कभी नहीं देखते। पूर्व-प्रशिक्षण महंगा हिस्सा है: एक फाउंडेशन मॉडल को सैकड़ों हज़ारों से लेकर सैकड़ों मिलियन डॉलर तक की लागत पर बड़ी मात्रा में डेटा (बड़े भाषा मॉडलों के लिए अक्सर खरबों tokens) पर प्रशिक्षित किया जाता है। यह एक base मॉडल उत्पन्न करता है जो टेक्स्ट की भविष्यवाणी कर सकता है लेकिन बातचीत के लिए विशेष रूप से उपयोगी नहीं है। Fine-tuning base मॉडल को विशिष्ट कार्यों — निर्देश पालन, कोड जनरेशन, चिकित्सा निदान — के लिए बहुत छोटे, क्यूरेटेड डेटासेट का उपयोग करके अनुकूलित करता है। RLHF या समान alignment तकनीकें मॉडल के आउटपुट को अधिक सहायक और कम हानिकारक बनाती हैं। Quantization मॉडल की परिशुद्धता को 16-bit या 32-bit floating point से 8-bit, 4-bit, या उससे भी कम तक compress करता है, मेमोरी और कंप्यूट आवश्यकताओं में नाटकीय कमी के लिए गुणवत्ता की एक छोटी मात्रा का व्यापार करता है। Deployment मॉडल को एक API के पीछे रखता है या इसे एक डिवाइस पर लोड करता है। Serving बड़े पैमाने पर वास्तविक इन्फ़ेरेंस अनुरोधों को संभालता है।
ओपन और क्लोज़्ड मॉडलों के बीच का अंतर जितना सुनाई देता है उससे अधिक धुंधला है। जब Meta Llama "रिलीज़" करता है, तो वे मॉडल weights प्रकाशित करते हैं — आप parameters डाउनलोड कर सकते हैं और मॉडल को अपने हार्डवेयर पर चला सकते हैं। लेकिन वे प्रशिक्षण डेटा या पूर्ण प्रशिक्षण कोड रिलीज़ नहीं करते। Mistral कुछ इसी तरह करता है। इन्हें अधिक सटीक रूप से "ओपन-वेट" मॉडल कहा जाता है। वास्तव में ओपन-सोर्स मॉडलों में weights, प्रशिक्षण डेटा, प्रशिक्षण कोड और मूल्यांकन पाइपलाइनें शामिल होंगी — एक ऐसा मानक जिसे लगभग कोई भी पूरा नहीं करता। दूसरी ओर, GPT-4 और Claude जैसे क्लोज़्ड मॉडल केवल APIs के माध्यम से उपलब्ध हैं। आप कभी भी weights नहीं देखते, आप मॉडल को संशोधित नहीं कर सकते, और आप प्रदाता की सेवा की शर्तों के अधीन हैं। व्यावहारिक अंतर बहुत बड़ा है: ओपन-वेट मॉडल आपको नियंत्रण, गोपनीयता, और fine-tune करने की क्षमता देते हैं, लेकिन आप कंप्यूट के लिए भुगतान करते हैं और परिचालन जटिलता उठाते हैं। क्लोज़्ड मॉडल आपको सुविधा और अक्सर बेहतर प्रदर्शन देते हैं, लेकिन आप किसी और के सिस्टम तक एक्सेस किराए पर ले रहे हैं।
बेंचमार्क मॉडलों की तुलना करने का मानक तरीका हैं, और वे गहराई से अविश्वसनीय हैं। एक मॉडल जो MMLU (एक बहु-विकल्पीय ज्ञान परीक्षण) पर सबसे अधिक स्कोर करता है, आपके विशिष्ट कार्य के साथ संघर्ष कर सकता है। बेंचमार्क contamination — जहाँ test डेटा प्रशिक्षण डेटा में leak हो जाता है — व्यापक है और इसका पता लगाना कठिन है। Chatbot Arena, जो blind मानव वरीयता वोटों के आधार पर मॉडलों को rank करता है, अधिक विश्वसनीय है लेकिन फिर भी डोमेन-विशिष्ट प्रदर्शन के बजाय सामान्य संवादात्मक गुणवत्ता को दर्शाता है। एक मॉडल चुनने का एकमात्र विश्वसनीय तरीका है उम्मीदवारों को अपने वास्तविक workload पर परखना। दस प्रतिनिधि prompts लिखें, उन्हें तीन या चार मॉडलों के माध्यम से चलाएँ, और आउटपुट की तुलना करें। वह एक घंटे का निवेश आपको किसी भी leaderboard से अधिक बताएगा।