O insight de Hinton et al. (2015): as probabilidades do professor contêm “conhecimento sombrio.” Para LLMs: gere respostas do professor, faça ajuste fino do aluno nelas. Destilação vs quantização: destilação cria um novo modelo menor; quantização reduz a precisão do mesmo modelo.
Quando um modelo classifica uma imagem como “gato” com 90% de confiança, o restante da distribuição importa: 5% para “lince” e 3% para “cachorro” codifica que gatos se parecem mais com linces que com aviões. Essas probabilidades suaves transmitem estrutura semântica que rótulos binários perdem completamente. É por isso que o aluno aprende mais rápido das probabilidades do professor do que dos rótulos originais.
Para modelos de linguagem, a destilação tipicamente envolve gerar milhões de respostas do modelo professor e treinar o aluno nessas respostas. Muitos modelos open-weight populares como Phi e Gemma usam dados destilados extensivamente. A qualidade dos dados de destilação importa mais que o volume.