Loop completo: batch → forward pass → perda → retropropagação → atualização. Otimizador Adam: taxas de aprendizado adaptativas por parâmetro. Agendamento de taxa de aprendizado: aquecimento → pico → decaimento cosseno.
Imagine que você está em uma montanha com neblina e quer descer ao vale. O gradiente é a inclinação sob seus pés — ele indica a direção de subida mais íngreme. Você dá um passo na direção oposta (descida). O tamanho do passo é a taxa de aprendizado. Passo grande demais: você pula o vale. Passo pequeno demais: leva uma eternidade.
SGD puro é lento e sensível à taxa de aprendizado. Adam (Kingma & Ba, 2015) mantém médias móveis do gradiente e do gradiente ao quadrado para cada parâmetro, adaptando a taxa de aprendizado automaticamente. Quase todo treinamento de LLM usa Adam ou variantes como AdamW (com regularização de peso).