缩放定律：定义与含义 — AI 维基

幂律关系表明，性能会随着模型大小、数据集大小和计算量的增加而可预测地提升。你可以在花费数百万之前就估算出性能。

为什么重要

将训练从猜测变成了工程。解释了AI军备竞赛的原因：计算投入的回报是可预测的，这驱动了越来越大的计算集群。

Kaplan等人（2020，OpenAI）：损失随计算量呈幂律下降。Chinchilla（Hoffmann等人，2022）：大多数模型训练不足——最佳比例约为每个参数20个token。缩放定律失效的地方：它们无法预测特定能力的涌现，也无法反映数据质量的影响。