Zubnet AI學習Wiki › Gradient Descent
訓練

Gradient Descent(梯度下降)

別名:隨機梯度下降、反向傳播

透過計算梯度並沿著下坡方向調整參數來反覆降低損失。反向傳播(Backpropagation)能高效地計算各層的梯度。

為什麼重要

每個模型都是透過梯度下降訓練的。它解釋了學習率的重要性、訓練發散的原因,以及為什麼 Adam 優化器有效。

深度解析

完整循環:批次 → 前向傳播 → 計算損失 → 反向傳播 → 更新參數。Adam 優化器:自適應的逐參數學習率。學習率排程:預熱 → 峰值 → 餘弦衰減。

相關概念

← 所有術語