訓練

Gradient Descent（梯度下降）

別名：隨機梯度下降、反向傳播

透過計算梯度並沿著下坡方向調整參數來反覆降低損失。反向傳播（Backpropagation）能高效地計算各層的梯度。

為什麼重要

每個模型都是透過梯度下降訓練的。它解釋了學習率的重要性、訓練發散的原因，以及為什麼 Adam 優化器有效。

完整循環：批次 → 前向傳播 → 計算損失 → 反向傳播 → 更新參數。Adam 優化器：自適應的逐參數學習率。學習率排程：預熱 → 峰值 → 餘弦衰減。