训练

梯度下降

别名：SGD、反向传播

通过计算梯度并沿下坡方向步进来迭代调整参数以减少损失。反向传播（Backpropagation）高效地计算各层的梯度。

为什么重要

每个模型都是通过梯度下降训练的。它解释了学习率的重要性、训练发散问题，以及Adam优化器为什么有效。

深度解析

完整循环：批次 → 前向传递 → 损失计算 → 反向传播 → 参数更新。Adam优化器：自适应的逐参数学习率。学习率调度：预热 → 峰值 → 余弦衰减。

相关概念

← 所有术语

← 束搜索梯度检查点 →