Zubnet AI学习Wiki › 梯度下降
训练

梯度下降

别名:SGD、反向传播

通过计算梯度并沿下坡方向步进来迭代调整参数以减少损失。反向传播(Backpropagation)高效地计算各层的梯度。

为什么重要

每个模型都是通过梯度下降训练的。它解释了学习率的重要性、训练发散问题,以及Adam优化器为什么有效。

深度解析

完整循环:批次 → 前向传递 → 损失计算 → 反向传播 → 参数更新。Adam优化器:自适应的逐参数学习率。学习率调度:预热 → 峰值 → 余弦衰减。

相关概念

← 所有术语
← 束搜索 梯度检查点 →