ReLU (Rectified Linear Unit) é a mais simples: f(x) = max(0, x). Ela produz zero para entradas negativas e passa entradas positivas inalteradas. ReLU resolveu o problema do gradiente que desaparece que assolava funções de ativação anteriores (sigmoid, tanh) ao fornecer um gradiente constante de 1 para entradas positivas. Sua simplicidade e eficácia a tornaram o padrão por mais de uma década.
GELU (Gaussian Error Linear Unit) é agora o padrão em Transformers (usada no BERT, GPT e na maioria dos LLMs). Diferente do corte abrupto da ReLU em zero, GELU suaviza gradualmente perto de zero, o que proporciona melhor fluxo de gradientes. SiLU/Swish (x · sigmoid(x)) é similar e usada em algumas arquiteturas como o LLaMA. As diferenças práticas entre GELU e SiLU são pequenas — ambas superam ReLU em modelos na escala de Transformers.
LLMs modernos frequentemente usam Gated Linear Units (GLU) e suas variantes (SwiGLU, GeGLU) nas camadas feed-forward. Essas multiplicam duas projeções lineares paralelas, efetivamente permitindo que a rede controle quais informações passam. SwiGLU (usado no LLaMA, Mistral e muitos outros) combina ativação SiLU com gating e consistentemente melhora em relação a camadas feed-forward padrão, ao custo de um pouco mais de parâmetros.