A intuição: ordem aleatória de treinamento significa que o modelo encontra exemplos difíceis antes de ter a base para aprender com eles, desperdiçando atualizações de gradiente. Começando com exemplos fáceis e claros, o modelo constrói representações básicas que tornam exemplos mais difíceis aprendíveis. Bengio et al. (2009) formalizaram isso, mostrando que o treinamento com currículo converge mais rápido e às vezes alcança melhores soluções que a ordenação aleatória.
O treinamento moderno de LLMs usa uma forma de aprendizado por currículo através de cronogramas de mistura de dados. O treinamento inicial pode usar uma mistura ampla de texto da web. Estágios posteriores aumentam a proporção de dados de alta qualidade (texto curado, código, matemática, raciocínio). Algumas receitas de treinamento fazem "annealing" em dados premium na fase final — o modelo aprende padrões amplos primeiro, depois refina em exemplos cuidadosamente selecionados. Esse agendamento de dados é um dos segredos mais bem guardados dos laboratórios de fronteira.
Aprendizado auto-dirigido (self-paced learning) é uma variante onde o próprio modelo decide o que é fácil ou difícil, baseado na sua loss atual em cada exemplo. Exemplos com loss baixa (já aprendidos) são despriorizados, enquanto exemplos com loss moderada (desafiadores mas aprendíveis) são enfatizados. Exemplos com loss muito alta (ruído, dados mal rotulados) também são despriorizados como possíveis outliers. Esse currículo adaptativo se ajusta automaticamente conforme o modelo melhora.