सामान्य Transformer में, प्रत्येक टोकन प्रत्येक परत में एक ही फीडफॉरवर्ड नेटवर्क (FFN) के माध्यम से गुजरता है। एक MoE Transformer में, वह एकल FFN को कई समानांतर FFNs — "विशेषज्ञ" — के साथ बदल दिया जाता है, और एक छोटा रूटिंग नेटवर्क (आमतौर पर एक गेट कहा जाता है) जो प्रत्येक टोकन के लिए कौन से विशेषज्ञ प्रसंस्करण करते हैं उसका निर्णय लेता है। आमतौर पर, गेट शीर्ष-क विशेषज्ञों (आमतौर पर 2) को चुनता है और गेट के सॉफ्टमैक्स वजनों का उपयोग करके उनके आउटपुट को मिश्रित करता है। मुख्य अंतर्दृष्टि यह है कि कुल पैरामीटर की संख्या बहुत बड़ी हो सकती है (मॉडल को याद रखने और सामान्यीकरण करने की बड़ी क्षमता देते हुए), लेकिन प्रति-टोकन कम्प्यूटेशन व्यवस्थित रहता है क्योंकि कोई भी इनपुट के लिए अधिकांश विशेषज्ञ निष्क्रिय रहते हैं। उदाहरण के लिए, Mixtral 8x7B में लगभग 47B कुल पैरामीटर होते हैं लेकिन प्रति टोकन केवल लगभग 13B सक्रिय होते हैं।
रूटिंग यंत्र जहां अधिकांश इंजीनियरिंग जटिलता रहती है। एक अनूठा रूटर सभी टोकनों को कुछ विशेषज्ञों के लिए भेज सकता है, अन्य को अनप्रयोग कर दे — जिसे "विशेषज्ञ संकुचन" कहा जाता है। इसके रोकथाम के लिए, MoE मॉडल अतिरिक्त लोड-बैलेंसिंग खोपड़ियों का उपयोग करते हैं जो प्रशिक्षण के दौरान असमान विशेषज्ञ उपयोग के लिए दंड देते हैं। Google के मूल Switch Transformer में शीर्ष-1 रूटिंग (एक विशेषज्ञ प्रति टोकन) का उपयोग किया गया था और इसने अद्भुत स्केलिंग प्राप्त की, लेकिन आधुनिक MoE मॉडल आमतौर पर शीर्ष-2 रूटिंग को अधिक स्थिरता के लिए पसंद करते हैं। कुछ नए दृष्टिकोण, जैसे DeepSeekMoE, ऐसे साझा विशेषज्ञों के साथ जो रूटिंग के साथ हमेशा सक्रिय रहते हैं, जोड़ते हैं, जो रूटिंग निर्णयों के बिना भी प्रत्येक टोकन के लिए एक आधार डिग्री प्रसंस्करण सुनिश्चित करते हैं।
MoE तैनाती को परिभाषित करने वाला विनिमय स्मृति बर्स गणना है। यद्यपि प्रति टोकन केवल एक छोटा हिस्सा विशेषज्ञ सक्रिय होता है, लेकिन सभी विशेषज्ञों को स्मृति में लोड करना आवश्यक है। 8x7B MoE मॉडल को लगभग एक घन 47B मॉडल के समान स्मृति की आवश्यकता होती है, जबकि यह लगभग 13B घन मॉडल के गति पर चलता है। यह MoE मॉडल के लिए उपभोक्ता हार्डवेयर के लिए असुविधाजनक बनाता है — यदि आपके GPU VRAM में केवल 13B पैरामीटर फिट करने की क्षमता है, तो आपको एक घन 13B मॉडल से समान अनुमान गति मिलेगी बिना MoE ओवरहेड के। MoE तब चमकता है जब आपके पास पूरे मॉडल को रखने के लिए पर्याप्त स्मृति होती है और आप FLOP प्रति अधिकतम गुणवत्ता चाहते हैं। इसी कारण यह बादल सेवा के लिए प्राकृतिक फिट है: प्रदाता जैसे OpenAI और Mistral अपने क्लस्टर पर पर्याप्त स्मृति प्रदान कर सकते हैं, और प्रति-अनुरोध कम्प्यूटेशन लागत उनके मार्जिन को नियंत्रित करती है।
विशेषज्ञ समानांतरता MoE के लिए विशिष्ट एक तैनाती पैटर्न है। एक मल्टी-GPU सेटअप में, आप