Zubnet AIApprendreWiki › Descente de gradient
Entraînement

Descente de gradient

Aussi appelé : SGD, Rétropropagation
Ajuste itérativement les paramètres pour réduire la perte en calculant les gradients et en descendant la pente. La rétropropagation calcule efficacement les gradients à travers les couches.

Pourquoi c'est important

Chaque modèle a été entraîné par descente de gradient. Explique l'importance du learning rate, la divergence d'entraînement, pourquoi Adam marche.

En profondeur

La boucle complète : batch → passage avant → perte → rétropropagation → mise à jour. L'optimiseur Adam : learning rates adaptatifs par paramètre. Les schedules de learning rate : warmup → pic → décroissance cosinus.

Concepts connexes

← Tous les termes
← DeepSeek Diffusion Transformer →
ESC