Kaplan et al. (2020, OpenAI): a perda diminui como lei de potência. Chinchilla (Hoffmann et al., 2022): a maioria dos modelos era subtreinada — razão ótima de aproximadamente 20 tokens por parâmetro. Onde elas falham: não preveem capacidades específicas nem consideram qualidade dos dados.
Antes de Chinchilla, a tendência era construir modelos enormes com dados relativamente escassos (GPT-3: 175B parâmetros, 300B tokens). Chinchilla mostrou que um modelo de 70B treinado em 1.4T tokens superava o GPT-3 — isso mudou completamente a estratégia da indústria. Llama 3 foi treinado com mais de 15T tokens em 70B parâmetros, muito além da razão Chinchilla, porque tokens de inferência são mais baratos que parâmetros.
Leis de escala preveem perda média mas não capacidades emergentes específicas. Não dizem quando um modelo aprenderá a fazer aritmética ou seguir instruções complexas. Também assumem dados de qualidade homogênea — dados melhores em menor quantidade frequentemente superam dados piores em grande quantidade.