La intuición: el orden de entrenamiento aleatorio significa que el modelo encuentra ejemplos difíciles antes de tener la base para aprender de ellos, desperdiciando actualizaciones de gradientes. Al comenzar con ejemplos fáciles y claros, el modelo construye representaciones básicas que hacen que los ejemplos más difíciles sean aprendibles. Bengio et al. (2009) formalizaron esto, mostrando que el entrenamiento curricular converge más rápido y a veces alcanza mejores soluciones que el orden aleatorio.
El entrenamiento moderno de LLMs usa una forma de aprendizaje curricular a través de programas de mezcla de datos. El entrenamiento temprano podría usar una mezcla amplia de texto web. Las etapas posteriores aumentan la proporción de datos de alta calidad (texto curado, código, matemáticas, razonamiento). Algunas recetas de entrenamiento "templan" con datos premium en la fase final — el modelo aprende patrones amplios primero, luego refina con ejemplos cuidadosamente seleccionados. Esta programación de datos es uno de los secretos más guardados de los laboratorios de frontera.
El aprendizaje auto-regulado es una variante donde el propio modelo decide qué es fácil o difícil, basándose en su pérdida actual en cada ejemplo. Los ejemplos con baja pérdida (ya aprendidos) se priorizan menos, mientras que los ejemplos con pérdida moderada (desafiantes pero aprendibles) se enfatizan. Los ejemplos con pérdida muy alta (ruido, datos mal etiquetados) también se priorizan menos como posibles valores atípicos. Este currículo adaptativo se ajusta automáticamente a medida que el modelo mejora.