ReLU (Rectified Linear Unit) est la plus simple : f(x) = max(0, x). Elle produit zéro pour les entrées négatives et passe les entrées positives sans changement. ReLU a résolu le problème du gradient qui s'évanouit qui affligeait les fonctions d'activation antérieures (sigmoïde, tanh) en fournissant un gradient constant de 1 pour les entrées positives. Sa simplicité et son efficacité en ont fait le choix par défaut pendant plus d'une décennie.
GELU (Gaussian Error Linear Unit) est maintenant le standard dans les Transformers (utilisé par BERT, GPT et la plupart des LLM). Contrairement à la coupure abrupte de ReLU à zéro, GELU s'atténue progressivement près de zéro, ce qui fournit un meilleur flux de gradient. SiLU/Swish (x · sigmoid(x)) est similaire et utilisé dans certaines architectures comme LLaMA. Les différences pratiques entre GELU et SiLU sont mineures — les deux surpassent ReLU dans les modèles à l'échelle Transformer.
Les LLM modernes utilisent souvent des Gated Linear Units (GLU) et leurs variantes (SwiGLU, GeGLU) dans les couches feed-forward. Celles-ci multiplient deux projections linéaires parallèles ensemble, laissant effectivement le réseau contrôler quelle information passe. SwiGLU (utilisé dans LLaMA, Mistral et beaucoup d'autres) combine l'activation SiLU avec le gating et améliore systématiquement les couches feed-forward standard au prix de légèrement plus de paramètres.