Des relations en loi de puissance montrant que la performance s'améliore de manière prévisible avec la taille du modèle, la taille du dataset et le calcul. On peut estimer la performance avant de dépenser des millions.
Pourquoi c'est important
Ont transformé l'entraînement d'un jeu de devinettes en ingénierie. Expliquent la course à l'armement IA : des retours prévisibles sur le calcul poussent vers des clusters toujours plus grands.
En profondeur
Kaplan et al. (2020, OpenAI) : la perte décroît en loi de puissance. Chinchilla (Hoffmann et al., 2022) : la plupart des modèles étaient sous-entraînés — ratio optimal ~20 tokens par paramètre. Là où ça casse : ne prédit pas les capacités spécifiques et ne tient pas compte de la qualité des données.