Ajuste itérativement les paramètres pour réduire la perte en calculant les gradients et en descendant la pente. La rétropropagation calcule efficacement les gradients à travers les couches.
Pourquoi c'est important
Chaque modèle a été entraîné par descente de gradient. Explique l'importance du learning rate, la divergence d'entraînement, pourquoi Adam marche.
En profondeur
La boucle complète : batch → passage avant → perte → rétropropagation → mise à jour. L'optimiseur Adam : learning rates adaptatifs par paramètre. Les schedules de learning rate : warmup → pic → décroissance cosinus.