Zubnet AIAprenderWiki › SwiGLU
Fundamentos

SwiGLU

Também conhecido como: Gated Linear Unit, Variantes GLU
Uma função de ativação com portão usada nas camadas feedforward de Transformers modernos. SwiGLU combina a ativação SiLU/Swish com um mecanismo de portão: SwiGLU(x) = (x · W1 · SiLU) ⊗ (x · W3), onde ⊗ é multiplicação elemento a elemento. Isso permite que a rede aprenda quais informações deixar passar, superando consistentemente camadas feedforward padrão com ReLU ou GELU.

Por que isso importa

SwiGLU é a ativação feedforward usada por LLaMA, Mistral, Qwen, Gemma e a maioria dos LLMs modernos. Entendê-la ajuda você a ler arquiteturas de modelos e explica por que camadas FFN modernas têm três matrizes de pesos em vez de duas. É uma escolha arquitetural pequena com impacto desproporcional na qualidade do modelo.

Em profundidade

FFN padrão: FFN(x) = W2 · GELU(W1 · x). Duas matrizes de pesos, uma ativação. FFN SwiGLU: SwiGLU(x) = W2 · (SiLU(W1 · x) ⊗ W3 · x). Três matrizes de pesos, um mecanismo de portão. O portão (W3 · x) controla o que passa, permitindo que a rede suprima ou amplifique seletivamente diferentes features. Para manter a contagem de parâmetros constante, a dimensão intermediária é tipicamente reduzida de 4×model_dim para (8/3)×model_dim.

Por Que Portões Ajudam

Portões dão à rede uma interação multiplicativa que ativações padrão não possuem. Ativações padrão aplicam uma não-linearidade fixa. Portões aplicam uma não-linearidade aprendida e dependente da entrada. Essa expressividade adicional ajuda a rede a aprender funções mais complexas por camada, o que significa que você precisa de menos camadas (ou camadas menores) para desempenho equivalente. Shazeer (2020) mostrou que variantes GLU superam consistentemente FFN padrão em todos os tamanhos de modelo.

A Família GLU

SwiGLU é uma de várias variantes GLU: GeGLU (usa GELU em vez de SiLU), ReGLU (usa ReLU) e o GLU original (usa sigmoid). SwiGLU e GeGLU têm desempenho similar e ambos superam ReGLU. A escolha entre eles é principalmente empírica — SwiGLU se tornou o padrão por convenção (LLaMA adotou, outros seguiram) em vez de superioridade teórica clara sobre GeGLU.

Conceitos relacionados

← Todos os termos
← Superposição Tamanho de Batch e Época →