Leyes de escala: Definición y significado — Wiki de IA

Relaciones de ley de potencias que muestran que el rendimiento mejora de forma predecible con el tamaño del modelo, el tamaño del dataset y el cómputo. Puedes estimar el rendimiento antes de gastar millones.

Por qué importa

Convirtieron el entrenamiento de una apuesta en ingeniería. Explican la carrera armamentista de la IA: los retornos predecibles sobre el cómputo impulsan clusters cada vez más grandes.

En profundidad

Kaplan et al. (2020, OpenAI): la pérdida decrece como una ley de potencias respecto al tamaño del modelo, los datos y el cómputo. Estas curvas son notablemente suaves y predecibles — puedes entrenar modelos pequeños y extrapolar el rendimiento de modelos mucho más grandes con precisión útil.

La corrección Chinchilla

Hoffmann et al. (2022, DeepMind) demostró que la mayoría de los modelos estaban sub-entrenados — la ratio óptima es ~20 tokens por parámetro. Un modelo de 10B debería entrenarse con ~200B tokens, no con 30B como era la práctica. Esto cambió completamente la estrategia: en lugar de solo hacer modelos más grandes, alimentarlos con más datos.

Donde fallan

Las leyes de escala no predicen capacidades específicas (como cuándo emerge el razonamiento en cadena de pensamiento), no tienen en cuenta la calidad de los datos (tokens basura no escalan igual), y no te dicen nada sobre la utilidad post-alineación. Un modelo con menor pérdida no es necesariamente más útil después de RLHF. Son una brújula, no un mapa.

Leyes de escala

Por qué importa

En profundidad

La corrección Chinchilla

Donde fallan

Conceptos relacionados