जब एक न्यूरल नेटवर्क प्रशिक्षित होता है, तो यह weights और biases के matrices में संगठित लाखों या अरबों संख्याओं को समायोजित कर रहा होता है। प्रत्येक weight नियंत्रित करता है कि एक neuron से अगले तक एक संकेत कितनी मज़बूती से प्रवाहित होता है; प्रत्येक bias activation threshold को shift करता है। ये parameters हैं। प्रशिक्षण gradient descent के माध्यम से काम करता है — मॉडल एक भविष्यवाणी करता है, मापता है कि वह कितनी गलत थी (loss), फिर हर parameter को उस दिशा में थोड़ी मात्रा में धकेलता है जो भविष्यवाणी को कम गलत बनाती। इसे खरबों tokens पर अरबों बार दोहराएँ, और वे parameters कुछ ऐसे में परिवर्तित हो जाते हैं जो कविता लिख सकता है, कोड debug कर सकता है, या quantum यांत्रिकी समझा सकता है। Parameters एक lookup table या डेटाबेस नहीं हैं। वे प्रशिक्षण डेटा में पैटर्न का एक compressed, distributed, lossy प्रतिनिधित्व हैं, और कोई भी एकल parameter अपने आप में कुछ "नहीं जानता"।
आधुनिक AI का इतिहास parameter counts में बताया जा सकता है। 2019 में GPT-2 के पास 1.5 अरब parameters थे और लोगों ने सोचा कि यह खतरनाक रूप से सक्षम है। GPT-3 2020 में 175 अरब के साथ आया और नियमों को फिर से लिखा। पैमाने में हर छलांग ने ऐसी क्षमताएँ खोलीं जिनसे छोटे मॉडल बस मेल नहीं खा सकते थे — few-shot learning, सुसंगत लंबी-फॉर्म लेखन, बुनियादी तर्क — और लैब्स ने हमेशा बड़े मॉडलों को प्रशिक्षित करने के लिए दौड़ लगाई। यह केवल मार्केटिंग नहीं थी। OpenAI और DeepMind द्वारा प्रकाशित scaling laws ने parameter count, प्रशिक्षण डेटा, कंप्यूट बजट और मॉडल प्रदर्शन के बीच एक उल्लेखनीय रूप से सहज संबंध दिखाया। अधिक parameters, अधिक डेटा पर प्रशिक्षित, अधिक कंप्यूट के साथ, का अर्थ था पूर्वानुमेय रूप से बेहतर परिणाम। हथियारों की दौड़ तर्कसंगत थी, कम से कम कुछ समय के लिए।
सभी parameters समान नहीं हैं, और वे सभी हर इनपुट पर सक्रिय नहीं होते। Mixtral और (कथित तौर पर) GPT-4 जैसे Mixture-of-Experts (MoE) मॉडलों में कई अरब कुल parameters होते हैं, लेकिन एक routing network प्रत्येक token के लिए केवल "expert" sub-networks का एक उपसमुच्चय चुनता है। Mixtral 8x7B के पास लगभग 47 अरब कुल parameters हैं लेकिन प्रति forward pass केवल लगभग 13 अरब को सक्रिय करता है — आपको एक छोटे मॉडल की इन्फ़ेरेंस लागत पर बहुत बड़े मॉडल की गुणवत्ता देता है। इस बीच, 2022 में DeepMind से Chinchilla scaling शोध ने "बड़ा हमेशा बेहतर है" की धारणा को पूरी तरह से उलट दिया। उन्होंने दिखाया कि अधिकांश बड़े मॉडल कम-प्रशिक्षित थे: काफी अधिक डेटा पर प्रशिक्षित एक छोटा मॉडल कम पर प्रशिक्षित एक बड़े मॉडल से बेहतर प्रदर्शन कर सकता था। Chinchilla, 1.4 खरब tokens पर प्रशिक्षित 70 अरब parameters पर, ने 280 अरब parameter वाले Gopher को हराया। सबक यह था कि अकेले parameter count आपको बहुत कम बताता है बिना यह जाने कि प्रशिक्षण में कितना डेटा और कंप्यूट गया।
Parameters की GPU मेमोरी में एक प्रत्यक्ष, अपरिहार्य लागत है। fp16 (16-bit floating point) या bf16 में संग्रहीत प्रत्येक parameter 2 bytes लेता है। एक 7-अरब-parameter मॉडल को इसलिए केवल weights रखने के लिए लगभग 14 GB VRAM की आवश्यकता होती है — किसी और चीज़ का हिसाब लगाने से पहले। int8 (8-bit integers) तक quantize करें और वह 7 GB तक गिर जाता है; 4-bit पर जाएँ और आप लगभग 3.5 GB पर हैं। यह इन्फ़ेरेंस है। प्रशिक्षण पूरी तरह से एक अलग प्राणी है, क्योंकि आपको gradients (parameters के समान आकार), optimizer states (Adam के लिए अक्सर parameter आकार का 2x), और backpropagation के लिए activations को भी संग्रहीत करना होता है। एक मोटा अनुमान: मिश्रित परिशुद्धता में मॉडल को प्रशिक्षित करने के लिए न्यूनतम 4 से 6 bytes प्रति parameter की आवश्यकता होती है, और पूर्ण optimizer state के साथ बिना मेमोरी optimizations के 16 से 20 bytes प्रति parameter तक पहुँच सकती है। यही कारण है कि एक 7B मॉडल जो इन्फ़ेरेंस के लिए एक एकल उपभोक्ता GPU पर आराम से चलता है, उसे प्रशिक्षण के लिए datacenter GPUs के एक cluster की आवश्यकता होती है।
उद्योग बड़े पैमाने पर इस विश्वास से आगे बढ़ चुका है कि अधिक parameters को stack करना बेहतर मॉडलों का प्राथमिक रास्ता है। साक्ष्य कई दिशाओं से ढेर हो गया: Chinchilla ने साबित किया कि डेटा मात्रा मॉडल आकार जितनी ही मायने रखती है, Llama 3 और Qwen 2.5 जैसे ओपन-वेट्स मॉडलों ने दिखाया कि सावधानीपूर्वक डेटा क्यूरेशन और लंबा प्रशिक्षण 70B मॉडलों को बहुत बड़े मॉडलों के साथ प्रतिस्पर्धी बना सकता है, और MoE, state-space models, और बेहतर attention mechanisms जैसे आर्किटेक्चर नवाचारों ने कच्चे-बल scaling की तुलना में प्रति parameter बेहतर प्रदर्शन दिया। आज की सीमा प्रशिक्षण दक्षता, डेटा गुणवत्ता, और RLHF तथा distillation जैसी पोस्ट-प्रशिक्षण तकनीकों के बारे में है — केवल parameter counter को ऊपर ले जाने के बारे में नहीं। Parameter count अभी भी क्षमता के लिए एक मोटे प्रॉक्सी के रूप में मायने रखता है, लेकिन यह तेज़ी से एक मॉडल के बारे में सबसे कम दिलचस्प चीज़ बनता जा रहा है।