通过计算梯度并沿下坡方向步进来迭代调整参数以减少损失。反向传播(Backpropagation)高效地计算各层的梯度。
每个模型都是通过梯度下降训练的。它解释了学习率的重要性、训练发散问题,以及Adam优化器为什么有效。
完整循环:批次 → 前向传递 → 损失计算 → 反向传播 → 参数更新。Adam优化器:自适应的逐参数学习率。学习率调度:预热 → 峰值 → 余弦衰减。