Zubnet AIAprenderWiki › Gradiente Descendente
Treinamento

Gradiente Descendente

Também conhecido como: SGD, Backpropagation
Ajusta iterativamente os parâmetros para reduzir a perda, computando gradientes e descendo a encosta. A retropropagação calcula gradientes eficientemente através das camadas.

Por que isso importa

Todo modelo foi treinado por gradiente descendente. Explica a importância da taxa de aprendizado, divergência no treinamento e por que Adam funciona.

Em profundidade

Loop completo: batch → forward pass → perda → retropropagação → atualização. Otimizador Adam: taxas de aprendizado adaptativas por parâmetro. Agendamento de taxa de aprendizado: aquecimento → pico → decaimento cosseno.

A Intuição

Imagine que você está em uma montanha com neblina e quer descer ao vale. O gradiente é a inclinação sob seus pés — ele indica a direção de subida mais íngreme. Você dá um passo na direção oposta (descida). O tamanho do passo é a taxa de aprendizado. Passo grande demais: você pula o vale. Passo pequeno demais: leva uma eternidade.

Adam e Otimizadores Modernos

SGD puro é lento e sensível à taxa de aprendizado. Adam (Kingma & Ba, 2015) mantém médias móveis do gradiente e do gradiente ao quadrado para cada parâmetro, adaptando a taxa de aprendizado automaticamente. Quase todo treinamento de LLM usa Adam ou variantes como AdamW (com regularização de peso).

Conceitos relacionados

← Todos os termos
← Gradient Checkpointing Grafo de Conhecimento →