Zubnet AIApprendreWiki › SwiGLU
Fondamentaux

SwiGLU

Gated Linear Unit, GLU Variants
Une fonction d'activation gated utilisée dans les couches feedforward des Transformers modernes. SwiGLU combine l'activation SiLU/Swish avec un mécanisme de gating : SwiGLU(x) = (x · W1 · SiLU) ⊗ (x · W3), où ⊗ est une multiplication élément par élément. Ça laisse le réseau apprendre quelle info passer, surpassant systématiquement les couches feedforward ReLU ou GELU standard.

Pourquoi c'est important

SwiGLU est l'activation feedforward utilisée par LLaMA, Mistral, Qwen, Gemma et la plupart des LLM modernes. La comprendre t'aide à lire les architectures de modèles et explique pourquoi les couches FFN modernes ont trois matrices de poids au lieu de deux. C'est un petit choix architectural avec un impact démesuré sur la qualité du modèle.

Deep Dive

Standard FFN: FFN(x) = W2 · GELU(W1 · x). Two weight matrices, one activation. SwiGLU FFN: SwiGLU(x) = W2 · (SiLU(W1 · x) ⊗ W3 · x). Three weight matrices, a gating mechanism. The gate (W3 · x) controls what passes through, letting the network selectively suppress or amplify different features. To keep parameter count constant, the intermediate dimension is typically reduced from 4×model_dim to (8/3)×model_dim.

Why Gating Helps

Gating gives the network a multiplicative interaction that standard activations lack. Standard activations apply a fixed non-linearity. Gating applies a learned, input-dependent non-linearity. This additional expressiveness helps the network learn more complex functions per layer, which means you need fewer layers (or smaller layers) for equivalent performance. Shazeer (2020) showed that GLU variants consistently outperform standard FFN across model sizes.

The GLU Family

SwiGLU is one of several GLU variants: GeGLU (uses GELU instead of SiLU), ReGLU (uses ReLU), and the original GLU (uses sigmoid). SwiGLU and GeGLU perform similarly and both outperform ReGLU. The choice between them is mostly empirical — SwiGLU has become the default through convention (LLaMA adopted it, others followed) rather than clear theoretical superiority over GeGLU.

Concepts liés

← Tous les termes
← Supervised Apprendreing Sycophancy →