Zubnet AIApprendreWiki › Activation Function
Fondamentaux

Activation Function

ReLU, GELU, SiLU, Swish
Une fonction mathématique appliquée à la sortie d'un neurone qui introduit de la non-linéarité dans le réseau. Sans fonctions d'activation, un réseau de neurones — peu importe sa profondeur — serait seulement capable d'apprendre des relations linéaires. ReLU, GELU et SiLU/Swish sont les plus communes dans les architectures modernes.

Pourquoi c'est important

Les fonctions d'activation sont la raison pour laquelle le deep learning fonctionne tout court. Un empilement de transformations linéaires est juste une grosse transformation linéaire. Les fonctions d'activation entre les couches permettent au réseau d'apprendre des patterns complexes, non linéaires — les courbes, les contours et les relations subtiles qui rendent les réseaux de neurones puissants.

Deep Dive

ReLU (Rectified Linear Unit) is the simplest: f(x) = max(0, x). It outputs zero for negative inputs and passes positive inputs unchanged. ReLU solved the vanishing gradient problem that plagued earlier activation functions (sigmoid, tanh) by providing a constant gradient of 1 for positive inputs. Its simplicity and effectiveness made it the default for over a decade.

Beyond ReLU

GELU (Gaussian Error Linear Unit) is now the standard in Transformers (used by BERT, GPT, and most LLMs). Unlike ReLU's hard cutoff at zero, GELU smoothly tapers near zero, which provides better gradient flow. SiLU/Swish (x · sigmoid(x)) is similar and used in some architectures like LLaMA. The practical differences between GELU and SiLU are small — both outperform ReLU in Transformer-scale models.

GLU Variants

Modern LLMs often use Gated Linear Units (GLU) and their variants (SwiGLU, GeGLU) in feed-forward layers. These multiply two parallel linear projections together, effectively letting the network gate what information passes through. SwiGLU (used in LLaMA, Mistral, and many others) combines SiLU activation with gating and consistently improves over standard feed-forward layers at the cost of slightly more parameters.

Concepts liés

← Tous les termes
Agent →