Descente de gradient : Définition et signification — Wiki IA

Ajuste itérativement les paramètres pour réduire la perte en calculant les gradients et en descendant la pente. La rétropropagation calcule efficacement les gradients à travers les couches.

Pourquoi c'est important

Chaque modèle a été entraîné par descente de gradient. Explique l'importance du learning rate, la divergence d'entraînement, pourquoi Adam marche.

En profondeur

La boucle complète : batch → passage avant → perte → rétropropagation → mise à jour. L'optimiseur Adam : learning rates adaptatifs par paramètre. Les schedules de learning rate : warmup → pic → décroissance cosinus.

Descente de gradient

Pourquoi c'est important

En profondeur

Concepts connexes