Zubnet AIसीखेंWiki › SwiGLU
मूल तत्व

SwiGLU

इसे भी कहा जाता है: Gated Linear Unit, GLU वैरिएंट
आधुनिक Transformers के feedforward लेयर्स में उपयोग किया जाने वाला एक gated activation function। SwiGLU SiLU/Swish activation को एक gating तंत्र के साथ जोड़ता है: SwiGLU(x) = (x · W1 · SiLU) ⊗ (x · W3), जहां ⊗ element-wise गुणन है। यह नेटवर्क को यह सीखने देता है कि कौन सी जानकारी पास करनी है, लगातार मानक ReLU या GELU feedforward लेयर्स से बेहतर प्रदर्शन करता है।

यह क्यों मायने रखता है

SwiGLU LLaMA, Mistral, Qwen, Gemma, और अधिकांश आधुनिक LLMs द्वारा उपयोग किया जाने वाला feedforward activation है। इसे समझने से आपको मॉडल आर्किटेक्चर पढ़ने में मदद मिलती है और यह बताता है कि आधुनिक FFN लेयर्स में दो के बजाय तीन weight matrices क्यों हैं। यह एक छोटा आर्किटेक्चरल विकल्प है जिसका मॉडल गुणवत्ता पर बड़ा प्रभाव है।

गहन अध्ययन

मानक FFN: FFN(x) = W2 · GELU(W1 · x)। दो weight matrices, एक activation। SwiGLU FFN: SwiGLU(x) = W2 · (SiLU(W1 · x) ⊗ W3 · x)। तीन weight matrices, एक gating तंत्र। Gate (W3 · x) नियंत्रित करता है कि क्या पास होता है, जिससे नेटवर्क विभिन्न features को चुनिंदा रूप से दबा या बढ़ा सकता है। पैरामीटर काउंट स्थिर रखने के लिए, मध्यवर्ती आयाम आमतौर पर 4×model_dim से (8/3)×model_dim तक कम किया जाता है।

Gating क्यों मदद करता है

Gating नेटवर्क को एक गुणात्मक इंटरैक्शन देता है जो मानक activations में नहीं होता। मानक activations एक निश्चित non-linearity लागू करते हैं। Gating एक सीखी गई, इनपुट-निर्भर non-linearity लागू करता है। यह अतिरिक्त अभिव्यक्ति नेटवर्क को प्रति लेयर अधिक जटिल फंक्शन सीखने में मदद करती है, जिसका अर्थ है कि आपको समकक्ष प्रदर्शन के लिए कम लेयर्स (या छोटी लेयर्स) की आवश्यकता है। Shazeer (2020) ने दिखाया कि GLU वैरिएंट मॉडल आकारों में लगातार मानक FFN से बेहतर प्रदर्शन करते हैं।

GLU परिवार

SwiGLU कई GLU वैरिएंट में से एक है: GeGLU (SiLU के बजाय GELU का उपयोग करता है), ReGLU (ReLU का उपयोग करता है), और मूल GLU (sigmoid का उपयोग करता है)। SwiGLU और GeGLU समान रूप से प्रदर्शन करते हैं और दोनों ReGLU से बेहतर प्रदर्शन करते हैं। उनके बीच का चुनाव ज़्यादातर अनुभवजन्य है — SwiGLU सम्मेलन (LLaMA ने इसे अपनाया, अन्य ने अनुसरण किया) के माध्यम से डिफ़ॉल्ट बन गया है बजाय GeGLU पर स्पष्ट सैद्धांतिक श्रेष्ठता के।

संबंधित अवधारणाएँ

← सभी शब्द
← Suno Tencent →