Zubnet AIApprendreWiki › Fonction d'activation
Fondamentaux

Fonction d'activation

Aussi appelé : ReLU, GELU, SiLU, Swish
Une fonction mathématique appliquée à la sortie d'un neurone qui introduit de la non-linéarité dans le réseau. Sans fonctions d'activation, un réseau de neurones — peu importe le nombre de couches — ne pourrait apprendre que des relations linéaires. ReLU, GELU et SiLU/Swish sont les plus courants dans les architectures modernes.

Pourquoi c'est important

Les fonctions d'activation sont la raison pour laquelle l'apprentissage profond fonctionne. Un empilement de transformations linéaires n'est qu'une seule grande transformation linéaire. Les fonctions d'activation entre les couches permettent au réseau d'apprendre des patterns complexes et non linéaires — les courbes, contours et relations subtiles qui rendent les réseaux de neurones puissants.

En profondeur

ReLU (Rectified Linear Unit) est la plus simple : f(x) = max(0, x). Elle produit zéro pour les entrées négatives et passe les entrées positives sans changement. ReLU a résolu le problème du gradient qui s'évanouit qui affligeait les fonctions d'activation antérieures (sigmoïde, tanh) en fournissant un gradient constant de 1 pour les entrées positives. Sa simplicité et son efficacité en ont fait le choix par défaut pendant plus d'une décennie.

Au-delà de ReLU

GELU (Gaussian Error Linear Unit) est maintenant le standard dans les Transformers (utilisé par BERT, GPT et la plupart des LLM). Contrairement à la coupure abrupte de ReLU à zéro, GELU s'atténue progressivement près de zéro, ce qui fournit un meilleur flux de gradient. SiLU/Swish (x · sigmoid(x)) est similaire et utilisé dans certaines architectures comme LLaMA. Les différences pratiques entre GELU et SiLU sont mineures — les deux surpassent ReLU dans les modèles à l'échelle Transformer.

Variantes GLU

Les LLM modernes utilisent souvent des Gated Linear Units (GLU) et leurs variantes (SwiGLU, GeGLU) dans les couches feed-forward. Celles-ci multiplient deux projections linéaires parallèles ensemble, laissant effectivement le réseau contrôler quelle information passe. SwiGLU (utilisé dans LLaMA, Mistral et beaucoup d'autres) combine l'activation SiLU avec le gating et améliore systématiquement les couches feed-forward standard au prix de légèrement plus de paramètres.

Concepts connexes

← Tous les termes
← Flux agentique Fonction de perte →
ESC