透過計算梯度並沿著下坡方向調整參數來反覆降低損失。反向傳播(Backpropagation)能高效地計算各層的梯度。
完整循環:批次 → 前向傳播 → 計算損失 → 反向傳播 → 更新參數。Adam 優化器:自適應的逐參數學習率。學習率排程:預熱 → 峰值 → 餘弦衰減。