मिक्सचर ऑफ़ एक्सपर्ट्स: परिभाषा और अर्थ — AI विकी

एक आर्किटेक्चर जहां मॉडल में कई “एक्सपर्ट” सब-नेटवर्क होते हैं, लेकिन प्रत्येक इनपुट के लिए केवल कुछ सक्रिय करता है। एक राउटर नेटवर्क निर्णय लेता है कि एक दिए गए टोकन के लिए कौन से एक्सपर्ट संबंधित हैं। इसका मतलब है कि एक मॉडल में 100B+ कुल पैरामीटर हो सकते हैं, लेकिन किसी भी एकल फॉरवर्ड पास के लिए केवल 20B का उपयोग करता है।

यह क्यों मायने रखता है

MoE ऐसे मॉडल्स के रूप में जैसे कि मिक्स्ट्रल और (रिपोर्ट के अनुसार) GPT-4 के पास एक बड़े मॉडल की गुणवत्ता होती है लेकिन एक छोटे मॉडल की गति के साथ। ट्रेड-ऑफ़ अधिक मेमोरी उपयोग (सभी एक्सपर्ट्स को लोड करना आवश्यक है) होता है भले ही गणना सस्ती हो।

गहन अध्ययन

सामान्य Transformer में, प्रत्येक टोकन प्रत्येक परत में एक ही फीडफॉरवर्ड नेटवर्क (FFN) के माध्यम से गुजरता है। एक MoE Transformer में, वह एकल FFN को कई समानांतर FFNs — "विशेषज्ञ" — के साथ बदल दिया जाता है, और एक छोटा रूटिंग नेटवर्क (आमतौर पर एक गेट कहा जाता है) जो प्रत्येक टोकन के लिए कौन से विशेषज्ञ प्रसंस्करण करते हैं उसका निर्णय लेता है। आमतौर पर, गेट शीर्ष-क विशेषज्ञों (आमतौर पर 2) को चुनता है और गेट के सॉफ्टमैक्स वजनों का उपयोग करके उनके आउटपुट को मिश्रित करता है। मुख्य अंतर्दृष्टि यह है कि कुल पैरामीटर की संख्या बहुत बड़ी हो सकती है (मॉडल को याद रखने और सामान्यीकरण करने की बड़ी क्षमता देते हुए), लेकिन प्रति-टोकन कम्प्यूटेशन व्यवस्थित रहता है क्योंकि कोई भी इनपुट के लिए अधिकांश विशेषज्ञ निष्क्रिय रहते हैं। उदाहरण के लिए, Mixtral 8x7B में लगभग 47B कुल पैरामीटर होते हैं लेकिन प्रति टोकन केवल लगभग 13B सक्रिय होते हैं।

रूटिंग समस्या

रूटिंग यंत्र जहां अधिकांश इंजीनियरिंग जटिलता रहती है। एक अनूठा रूटर सभी टोकनों को कुछ विशेषज्ञों के लिए भेज सकता है, अन्य को अनप्रयोग कर दे — जिसे "विशेषज्ञ संकुचन" कहा जाता है। इसके रोकथाम के लिए, MoE मॉडल अतिरिक्त लोड-बैलेंसिंग खोपड़ियों का उपयोग करते हैं जो प्रशिक्षण के दौरान असमान विशेषज्ञ उपयोग के लिए दंड देते हैं। Google के मूल Switch Transformer में शीर्ष-1 रूटिंग (एक विशेषज्ञ प्रति टोकन) का उपयोग किया गया था और इसने अद्भुत स्केलिंग प्राप्त की, लेकिन आधुनिक MoE मॉडल आमतौर पर शीर्ष-2 रूटिंग को अधिक स्थिरता के लिए पसंद करते हैं। कुछ नए दृष्टिकोण, जैसे DeepSeekMoE, ऐसे साझा विशेषज्ञों के साथ जो रूटिंग के साथ हमेशा सक्रिय रहते हैं, जोड़ते हैं, जो रूटिंग निर्णयों के बिना भी प्रत्येक टोकन के लिए एक आधार डिग्री प्रसंस्करण सुनिश्चित करते हैं।

स्मृति बर्स गणना

MoE तैनाती को परिभाषित करने वाला विनिमय स्मृति बर्स गणना है। यद्यपि प्रति टोकन केवल एक छोटा हिस्सा विशेषज्ञ सक्रिय होता है, लेकिन सभी विशेषज्ञों को स्मृति में लोड करना आवश्यक है। 8x7B MoE मॉडल को लगभग एक घन 47B मॉडल के समान स्मृति की आवश्यकता होती है, जबकि यह लगभग 13B घन मॉडल के गति पर चलता है। यह MoE मॉडल के लिए उपभोक्ता हार्डवेयर के लिए असुविधाजनक बनाता है — यदि आपके GPU VRAM में केवल 13B पैरामीटर फिट करने की क्षमता है, तो आपको एक घन 13B मॉडल से समान अनुमान गति मिलेगी बिना MoE ओवरहेड के। MoE तब चमकता है जब आपके पास पूरे मॉडल को रखने के लिए पर्याप्त स्मृति होती है और आप FLOP प्रति अधिकतम गुणवत्ता चाहते हैं। इसी कारण यह बादल सेवा के लिए प्राकृतिक फिट है: प्रदाता जैसे OpenAI और Mistral अपने क्लस्टर पर पर्याप्त स्मृति प्रदान कर सकते हैं, और प्रति-अनुरोध कम्प्यूटेशन लागत उनके मार्जिन को नियंत्रित करती है।

विशेषज्ञ समानांतरता MoE के लिए विशिष्ट एक तैनाती पैटर्न है। एक मल्टी-GPU सेटअप में, आप

मिक्सचर ऑफ़ एक्सपर्ट्स

यह क्यों मायने रखता है

गहन अध्ययन

रूटिंग समस्या

स्मृति बर्स गणना

संबंधित अवधारणाएँ