冪律關係,顯示效能隨著模型大小、資料集大小和算力的增加而可預測地提升。你可以在花費數百萬之前估算效能。
Kaplan 等人(2020,OpenAI):損失以冪律遞減。Chinchilla(Hoffmann 等人,2022):大多數模型都訓練不足 — 最佳比例約為每個參數 20 個詞元。它們的局限:無法預測特定能力,也不考慮資料品質。