训练

课程学习

一种按有意义的顺序——通常从简单到困难——而非随机地呈现训练样本的策略。就像教学生先学算术再学微积分，课程学习先给模型基础模式，然后逐步增加复杂性。这可以加速收敛，有时还能获得更好的最终性能。

为什么重要

课程学习是一种被低估的技术，它可以在不改变模型或数据的情况下提高训练效率。LLM预训练越来越多地使用数据调度——在最后的训练阶段展示更干净、更高质量的数据——这就是课程学习的一种形式。呈现数据的顺序很重要，而不仅仅是数据本身。

深度解析

直觉是：随机训练顺序意味着模型在拥有学习基础之前就遇到了困难的样本，浪费了梯度更新。从简单、清晰的样本开始，模型建立了使更困难样本可学习的基本表示。Bengio等人（2009）将此形式化，表明课程训练比随机顺序收敛更快，有时还能达到更好的解。

在LLM预训练中

现代LLM训练通过数据混合调度使用一种课程学习形式。早期训练可能使用广泛的网页文本混合。后期阶段增加高质量数据（精选文本、代码、数学、推理）的比例。一些训练方案在最后阶段对高质量数据进行“退火”——模型先学习广泛的模式，然后在精心选择的样本上精化。这种数据调度是前沿实验室最严密保守的秘密之一。

自步学习

自步学习是一种变体，模型根据自身当前在每个样本上的损失来判断什么是简单或困难。损失低的样本（已学会）被降低优先级，损失中等的样本（有挑战但可学习）被强调，损失非常高的样本（噪声、标注错误的数据）也被降低优先级，因为它们可能是异常值。这种自适应课程会随模型改进而自动调整。

相关概念

← 所有术语

← 语音识别谄媚行为 →