Rétropropagation : Définition et signification — Wiki IA

L'algorithme qui calcule combien chaque paramètre d'un réseau de neurones a contribué à l'erreur, permettant à la descente de gradient de mettre à jour les paramètres efficacement. La rétropropagation applique la règle de la chaîne du calcul différentiel en sens inverse à travers le réseau : en partant de la perte en sortie, elle propage les gradients en arrière à travers chaque couche pour déterminer la part de responsabilité de chaque poids.

Pourquoi c'est important

La rétropropagation est l'algorithme qui rend l'entraînement des réseaux de neurones possible. Sans un moyen efficace de calculer les gradients pour des milliards de paramètres, la descente de gradient serait computationnellement infaisable. Chaque modèle que tu utilises — d'un petit classifieur à un LLM de 400B — a été entraîné par rétropropagation. C'est l'algorithme le plus important de l'apprentissage profond.

En profondeur

La passe forward : l'entrée traverse le réseau, chaque couche applique sa transformation, et la couche finale produit une prédiction. La fonction de perte calcule à quel point la prédiction est fausse. La passe backward : en partant de la perte, la rétropropagation calcule ∂perte/∂poids pour chaque poids du réseau en utilisant la règle de la chaîne : ∂perte/∂w = ∂perte/∂sortie · ∂sortie/∂caché · ∂caché/∂w. Chaque couche reçoit le gradient de la couche au-dessus et passe son propre gradient à la couche en dessous.

Efficacité computationnelle

Calculer naïvement le gradient pour chaque poids indépendamment nécessiterait une passe forward séparée par poids — impossiblement coûteux pour des milliards de paramètres. La rétropropagation réutilise les résultats intermédiaires : le gradient à chaque couche est calculé une fois et partagé avec tous les poids de cette couche. La passe backward coûte environ 2x la passe forward en calcul, ce qui signifie que le coût total d'une étape d'entraînement (forward + backward + mise à jour) est environ 3x une seule passe forward.

Différentiation automatique

Les frameworks modernes d'apprentissage profond (PyTorch, JAX) implémentent la rétropropagation via la différentiation automatique (autograd). Tu définis le calcul forward, et le framework construit automatiquement le graphe de calcul backward et calcule les gradients. Cela signifie que tu ne dérives jamais manuellement les gradients — tu définis l'architecture du modèle et la perte, tu appelles loss.backward(), et le framework gère le reste. Cette automatisation est ce qui rend l'expérimentation architecturale rapide et pratique.

Rétropropagation

Pourquoi c'est important

En profondeur

Efficacité computationnelle

Différentiation automatique

Concepts connexes