मानक FFN: FFN(x) = W2 · GELU(W1 · x)। दो weight matrices, एक activation। SwiGLU FFN: SwiGLU(x) = W2 · (SiLU(W1 · x) ⊗ W3 · x)। तीन weight matrices, एक gating तंत्र। Gate (W3 · x) नियंत्रित करता है कि क्या पास होता है, जिससे नेटवर्क विभिन्न features को चुनिंदा रूप से दबा या बढ़ा सकता है। पैरामीटर काउंट स्थिर रखने के लिए, मध्यवर्ती आयाम आमतौर पर 4×model_dim से (8/3)×model_dim तक कम किया जाता है।
Gating नेटवर्क को एक गुणात्मक इंटरैक्शन देता है जो मानक activations में नहीं होता। मानक activations एक निश्चित non-linearity लागू करते हैं। Gating एक सीखी गई, इनपुट-निर्भर non-linearity लागू करता है। यह अतिरिक्त अभिव्यक्ति नेटवर्क को प्रति लेयर अधिक जटिल फंक्शन सीखने में मदद करती है, जिसका अर्थ है कि आपको समकक्ष प्रदर्शन के लिए कम लेयर्स (या छोटी लेयर्स) की आवश्यकता है। Shazeer (2020) ने दिखाया कि GLU वैरिएंट मॉडल आकारों में लगातार मानक FFN से बेहतर प्रदर्शन करते हैं।
SwiGLU कई GLU वैरिएंट में से एक है: GeGLU (SiLU के बजाय GELU का उपयोग करता है), ReGLU (ReLU का उपयोग करता है), और मूल GLU (sigmoid का उपयोग करता है)। SwiGLU और GeGLU समान रूप से प्रदर्शन करते हैं और दोनों ReGLU से बेहतर प्रदर्शन करते हैं। उनके बीच का चुनाव ज़्यादातर अनुभवजन्य है — SwiGLU सम्मेलन (LLaMA ने इसे अपनाया, अन्य ने अनुसरण किया) के माध्यम से डिफ़ॉल्ट बन गया है बजाय GeGLU पर स्पष्ट सैद्धांतिक श्रेष्ठता के।