幂律关系表明,性能会随着模型大小、数据集大小和计算量的增加而可预测地提升。你可以在花费数百万之前就估算出性能。
将训练从猜测变成了工程。解释了AI军备竞赛的原因:计算投入的回报是可预测的,这驱动了越来越大的计算集群。
Kaplan等人(2020,OpenAI):损失随计算量呈幂律下降。Chinchilla(Hoffmann等人,2022):大多数模型训练不足——最佳比例约为每个参数20个token。缩放定律失效的地方:它们无法预测特定能力的涌现,也无法反映数据质量的影响。