Kaplan et al. (2020, OpenAI): la pérdida decrece como una ley de potencias respecto al tamaño del modelo, los datos y el cómputo. Estas curvas son notablemente suaves y predecibles — puedes entrenar modelos pequeños y extrapolar el rendimiento de modelos mucho más grandes con precisión útil.
Hoffmann et al. (2022, DeepMind) demostró que la mayoría de los modelos estaban sub-entrenados — la ratio óptima es ~20 tokens por parámetro. Un modelo de 10B debería entrenarse con ~200B tokens, no con 30B como era la práctica. Esto cambió completamente la estrategia: en lugar de solo hacer modelos más grandes, alimentarlos con más datos.
Las leyes de escala no predicen capacidades específicas (como cuándo emerge el razonamiento en cadena de pensamiento), no tienen en cuenta la calidad de los datos (tokens basura no escalan igual), y no te dicen nada sobre la utilidad post-alineación. Un modelo con menor pérdida no es necesariamente más útil después de RLHF. Son una brújula, no un mapa.