Zubnet AIAprenderWiki › Aprendizado por Currículo
Treinamento

Aprendizado por Currículo

Uma estratégia de treinamento que apresenta exemplos em uma ordem significativa — tipicamente do fácil ao difícil — em vez de aleatoriamente. Como ensinar a um aluno aritmética antes de cálculo, o aprendizado por currículo dá ao modelo padrões fundamentais primeiro e constrói complexidade gradualmente. Isso pode levar a convergência mais rápida e, às vezes, a melhor desempenho final.

Por que isso importa

Aprendizado por currículo é uma técnica subestimada que pode melhorar a eficiência do treinamento sem mudar o modelo ou os dados. O pré-treinamento de LLMs usa cada vez mais agendamento de dados — mostrando dados mais limpos e de maior qualidade nos estágios finais de treinamento — que é uma forma de aprendizado por currículo. A ordem em que você apresenta os dados importa, não apenas os dados em si.

Em profundidade

A intuição: ordem aleatória de treinamento significa que o modelo encontra exemplos difíceis antes de ter a base para aprender com eles, desperdiçando atualizações de gradiente. Começando com exemplos fáceis e claros, o modelo constrói representações básicas que tornam exemplos mais difíceis aprendíveis. Bengio et al. (2009) formalizaram isso, mostrando que o treinamento com currículo converge mais rápido e às vezes alcança melhores soluções que a ordenação aleatória.

No Pré-treinamento de LLMs

O treinamento moderno de LLMs usa uma forma de aprendizado por currículo através de cronogramas de mistura de dados. O treinamento inicial pode usar uma mistura ampla de texto da web. Estágios posteriores aumentam a proporção de dados de alta qualidade (texto curado, código, matemática, raciocínio). Algumas receitas de treinamento fazem "annealing" em dados premium na fase final — o modelo aprende padrões amplos primeiro, depois refina em exemplos cuidadosamente selecionados. Esse agendamento de dados é um dos segredos mais bem guardados dos laboratórios de fronteira.

Aprendizado Auto-dirigido

Aprendizado auto-dirigido (self-paced learning) é uma variante onde o próprio modelo decide o que é fácil ou difícil, baseado na sua loss atual em cada exemplo. Exemplos com loss baixa (já aprendidos) são despriorizados, enquanto exemplos com loss moderada (desafiadores mas aprendíveis) são enfatizados. Exemplos com loss muito alta (ruído, dados mal rotulados) também são despriorizados como possíveis outliers. Esse currículo adaptativo se ajusta automaticamente conforme o modelo melhora.

Conceitos relacionados

← Todos os termos
← Aprendizado Não Supervisionado Aprendizado por reforço →