Leis de Escala: Definição e significado — Wiki de IA

Relações de lei de potência mostrando que o desempenho melhora previsivelmente com o tamanho do modelo, o tamanho do dataset e a computação. Você pode estimar o desempenho antes de gastar milhões.

Por que isso importa

Transformaram o treinamento de adivinhação em engenharia. Explicam a corrida armamentista da IA: retornos previsíveis sobre computação impulsionam clusters cada vez maiores.

Em profundidade

Kaplan et al. (2020, OpenAI): a perda diminui como lei de potência. Chinchilla (Hoffmann et al., 2022): a maioria dos modelos era subtreinada — razão ótima de aproximadamente 20 tokens por parâmetro. Onde elas falham: não preveem capacidades específicas nem consideram qualidade dos dados.

O Artigo Chinchilla

Antes de Chinchilla, a tendência era construir modelos enormes com dados relativamente escassos (GPT-3: 175B parâmetros, 300B tokens). Chinchilla mostrou que um modelo de 70B treinado em 1.4T tokens superava o GPT-3 — isso mudou completamente a estratégia da indústria. Llama 3 foi treinado com mais de 15T tokens em 70B parâmetros, muito além da razão Chinchilla, porque tokens de inferência são mais baratos que parâmetros.

Onde as Leis Falham

Leis de escala preveem perda média mas não capacidades emergentes específicas. Não dizem quando um modelo aprenderá a fazer aritmética ou seguir instruções complexas. Também assumem dados de qualidade homogênea — dados melhores em menor quantidade frequentemente superam dados piores em grande quantidade.

Leis de Escala

Por que isso importa

Em profundidade

O Artigo Chinchilla

Onde as Leis Falham

Conceitos relacionados