Zubnet AIAprenderWiki › Aprendizaje curricular
Entrenamiento

Aprendizaje curricular

Una estrategia de entrenamiento que presenta ejemplos en un orden significativo — típicamente de fácil a difícil — en lugar de aleatoriamente. Como enseñarle a un estudiante aritmética antes de cálculo, el aprendizaje curricular le da al modelo los patrones fundamentales primero y construye complejidad gradualmente. Esto puede llevar a una convergencia más rápida y a veces a un mejor rendimiento final.

Por qué importa

El aprendizaje curricular es una técnica subestimada que puede mejorar la eficiencia del entrenamiento sin cambiar el modelo ni los datos. El preentrenamiento de LLMs cada vez más usa programación de datos — mostrando datos más limpios y de mayor calidad en las etapas finales del entrenamiento — lo cual es una forma de aprendizaje curricular. El orden en que presentas los datos importa, no solo los datos en sí.

En profundidad

La intuición: el orden de entrenamiento aleatorio significa que el modelo encuentra ejemplos difíciles antes de tener la base para aprender de ellos, desperdiciando actualizaciones de gradientes. Al comenzar con ejemplos fáciles y claros, el modelo construye representaciones básicas que hacen que los ejemplos más difíciles sean aprendibles. Bengio et al. (2009) formalizaron esto, mostrando que el entrenamiento curricular converge más rápido y a veces alcanza mejores soluciones que el orden aleatorio.

En el preentrenamiento de LLMs

El entrenamiento moderno de LLMs usa una forma de aprendizaje curricular a través de programas de mezcla de datos. El entrenamiento temprano podría usar una mezcla amplia de texto web. Las etapas posteriores aumentan la proporción de datos de alta calidad (texto curado, código, matemáticas, razonamiento). Algunas recetas de entrenamiento "templan" con datos premium en la fase final — el modelo aprende patrones amplios primero, luego refina con ejemplos cuidadosamente seleccionados. Esta programación de datos es uno de los secretos más guardados de los laboratorios de frontera.

Aprendizaje auto-regulado

El aprendizaje auto-regulado es una variante donde el propio modelo decide qué es fácil o difícil, basándose en su pérdida actual en cada ejemplo. Los ejemplos con baja pérdida (ya aprendidos) se priorizan menos, mientras que los ejemplos con pérdida moderada (desafiantes pero aprendibles) se enfatizan. Los ejemplos con pérdida muy alta (ruido, datos mal etiquetados) también se priorizan menos como posibles valores atípicos. Este currículo adaptativo se ajusta automáticamente a medida que el modelo mejora.

Conceptos relacionados

ESC