फ़ाउंडेशन मॉडल: परिभाषा और अर्थ — AI विकी

एक बड़ा मॉडल जो व्यापक डेटा पर प्रशिक्षित किया गया है जो कई अलग-अलग कार्यों के लिए एक आधार के रूप में काम करता है। क्लॉउड, जीपीटी, जेमिनी और लैम्मा सभी आधार मॉडल हैं। वे 'आधारभूत' हैं क्योंकि वे लगभग कुछ भी करने के लिए अनुकूलित किए जा सकते हैं — लेखन, कोडिंग, विश्लेषण, छवि समझ — प्रत्येक कार्य के लिए विशिष्ट रूप से प्रशिक्षित न होने के बिना।

यह क्यों मायने रखता है

फाउंडेशन मॉडल्स एआई के आर्थिक दृष्टिकोण को बदल दिया। प्रत्येक कार्य के लिए एक अलग मॉडल के प्रशिक्षण के बजाय, आप एक बड़े मॉडल को एक बार प्रशिक्षित करते हैं और फिर विशिष्ट आवश्यकताओं के लिए इसे सूक्ष्म-अनुकूलित या प्रोम्प्ट करते हैं।

गहन अध्ययन

एक foundation मॉडल अपना जीवन एक ख़ाली न्यूरल नेटवर्क के रूप में शुरू करता है — random मूल्यों पर initialize किए गए अरबों parameters। pre-training के दौरान, यह विशाल datasets (web pages, किताबें, code repositories, वैज्ञानिक papers) का उपभोग करता है और भविष्यवाणी करना सीखता है कि आगे क्या आता है। यह next-token भविष्यवाणी उद्देश्य धोखेबाज़ रूप से सरल लगता है, लेकिन यह मॉडल को व्याकरण, तथ्यों, reasoning patterns, coding conventions, और यहाँ तक कि common sense की कुछ डिग्री को आंतरिक करने के लिए मजबूर करता है। परिणाम एक सामान्य-उद्देश्य base है जो किसी एकल कार्य के लिए purpose-built होने के बिना बहुत कुछ के बारे में बहुत कुछ जानता है। GPT-4, Claude, Gemini, और Llama सभी अतिरिक्त alignment और instruction-tuning चरणों से गुज़रने से पहले foundation मॉडल के रूप में शुरू हुए।

Transfer learning shift

Foundation मॉडलों के पीछे मुख्य नवाचार पैमाने पर transfer learning है। इस paradigm से पहले, यदि आप ऐसा AI चाहते थे जो चिकित्सा छवियों को classify कर सके, तो आपने शुरुआत से एक चिकित्सा image classifier को प्रशिक्षित किया। यदि आप ऐसा एक चाहते थे जो क़ानूनी अनुबंधों का सारांश दे सके, तो आपने क़ानूनी डेटा पर एक अलग मॉडल को प्रशिक्षित किया। Foundation मॉडलों ने उस समीकरण को flip कर दिया: एक मॉडल को व्यापक ज्ञान के साथ प्रशिक्षित करें, फिर इसे सस्ते में अनुकूलित करें। अनुकूलन एक अच्छा prompt लिखने (zero-shot), context में कुछ उदाहरण प्रदान करने (few-shot), या एक छोटे task-specific dataset पर fine-tuning के रूप में हल्का हो सकता है। यही कारण है कि Claude जैसा एक एकल मॉडल आपको Python debug करने, marketing copy draft करने, और एक spreadsheet का विश्लेषण करने में मदद कर सकता है — सभी उसी बातचीत में।

विरासत में मिली ताक़तें और दोष

"Foundation मॉडल" शब्द 2021 में Stanford के Center for Research on Foundation Models (CRFM) के शोधकर्ताओं द्वारा कुछ महत्वपूर्ण capture करने के लिए गढ़ा गया था: ये मॉडल architectural अर्थ में foundations हैं। ऊपर बनाई गई हर चीज़ उनकी ताक़तों और उनके दोषों दोनों को विरासत में लेती है। यदि प्रशिक्षण डेटा में biases हैं, तो वे biases हर downstream application में फैल जाते हैं। यदि मॉडल hallucinate करता है, तो उस पर बना हर उत्पाद hallucinate कर सकता है। यह पारंपरिक software से मौलिक रूप से अलग है, जहाँ bugs स्थानीय हैं। Foundation मॉडलों के साथ, एक एकल क्षमता gap या failure mode विभिन्न टीमों द्वारा बनाए गए हज़ारों applications में फैल सकता है जिन्होंने कभी प्रशिक्षण प्रक्रिया को नहीं छुआ।

लागत बाधा

एक foundation मॉडल को प्रशिक्षित करना भयानक रूप से महंगा है — हम सबसे बड़े मॉडलों के लिए compute में दसियों से लेकर सैकड़ों मिलियन डॉलर की बात कर रहे हैं, साथ ही ट्रिलियन-token datasets को इकट्ठा करने और साफ करने के इंजीनियरिंग प्रयास। यह एक concentrated ecosystem बनाता है: केवल मुट्ठी भर संगठन (Anthropic, OpenAI, Google, Meta, Mistral, और कुछ अन्य) फ्रंटियर foundation मॉडलों को शुरुआत से प्रशिक्षित करने का खर्च उठा सकते हैं। बाकी सभी ऊपर निर्माण करते हैं। वह आर्थिक वास्तविकता पूरे उद्योग को आकार देती है — यही कारण है कि API-आधारित access प्रमुख तैनाती मॉडल बन गया, और Llama तथा Mistral जैसे ओपन-वेट रिलीज़ प्रतिस्पर्धा और access के लिए इतने मायने रखते हैं।

केवल भाषा नहीं

एक आम ग़लतफ़हमी यह है कि "foundation मॉडल" और "LLM" समानार्थी हैं। वे भारी रूप से overlap होते हैं, लेकिन वे एक ही चीज़ नहीं हैं। एक foundation मॉडल अपनी भूमिका (व्यापक base, कई downstream उपयोग) से परिभाषित होता है, न कि अपनी modality से। DINOv2 जैसे vision foundation मॉडल, Whisper जैसे audio मॉडल, और Gemini जैसे multimodal मॉडल सभी foundation मॉडल हैं। एक LLM एक विशिष्ट प्रकार है — भाषा पर केंद्रित। यह भेद मायने रखता है क्योंकि foundation मॉडल paradigm text से बहुत आगे फैल रहा है, protein folding, robotics, मौसम पूर्वानुमान, और दवा खोज में, सभी एक ही playbook का अनुसरण करते हुए: व्यापक डेटा पर बड़े पैमाने पर प्रशिक्षित करें, फिर अनुकूलित करें।

फ़ाउंडेशन मॉडल