O loop central: prever → comparar com o rótulo → calcular a perda → ajustar parâmetros. O pré-treinamento de LLMs é tecnicamente auto-supervisionado, mas o ajuste fino e o RLHF usam sinais supervisionados. O desafio é precisar de dados rotulados, que são caros.
O aprendizado supervisionado continua indispensável apesar do surgimento de técnicas auto-supervisionadas. Modelos pré-treinados com predição de próximo token são poderosos, mas precisam de ajuste fino supervisionado para seguir instruções, respeitar formatos e se comportar de maneira alinhada. Os dados rotulados usados nessa fase — frequentemente milhares de pares de instrução-resposta curados por humanos — têm impacto desproporcional na utilidade final do modelo.
A dependência de dados rotulados é tanto a força quanto a fraqueza. Rótulos de alta qualidade são caros, consumidores de tempo e sujeitos a viés humano. Em domínios como diagnóstico médico, obter rótulos corretos requer especialistas que custam caro. É por isso que aprendizado auto-supervisionado e semi-supervisionado ganharam tanta tração — eles reduzem a necessidade de rotulagem manual.