直觉是:随机训练顺序意味着模型在拥有学习基础之前就遇到了困难的样本,浪费了梯度更新。从简单、清晰的样本开始,模型建立了使更困难样本可学习的基本表示。Bengio等人(2009)将此形式化,表明课程训练比随机顺序收敛更快,有时还能达到更好的解。
现代LLM训练通过数据混合调度使用一种课程学习形式。早期训练可能使用广泛的网页文本混合。后期阶段增加高质量数据(精选文本、代码、数学、推理)的比例。一些训练方案在最后阶段对高质量数据进行“退火”——模型先学习广泛的模式,然后在精心选择的样本上精化。这种数据调度是前沿实验室最严密保守的秘密之一。
自步学习是一种变体,模型根据自身当前在每个样本上的损失来判断什么是简单或困难。损失低的样本(已学会)被降低优先级,损失中等的样本(有挑战但可学习)被强调,损失非常高的样本(噪声、标注错误的数据)也被降低优先级,因为它们可能是异常值。这种自适应课程会随模型改进而自动调整。