Destilação: Definição e significado — Wiki de IA

Treinar um modelo menor (“aluno”) para imitar um modelo maior (“professor”) aprendendo a partir das distribuições de probabilidade suaves do professor em vez de rótulos fixos. As saídas suaves codificam relações entre categorias que rótulos fixos não transmitem.

Por que isso importa

A destilação torna IA poderosa acessível. Uma destilação de 70B para 7B pode capturar 90% da capacidade a 10% do custo. Muitos modelos executados localmente são destilados de modelos de fronteira.

Em profundidade

O insight de Hinton et al. (2015): as probabilidades do professor contêm “conhecimento sombrio.” Para LLMs: gere respostas do professor, faça ajuste fino do aluno nelas. Destilação vs quantização: destilação cria um novo modelo menor; quantização reduz a precisão do mesmo modelo.

O Conhecimento Sombrio

Quando um modelo classifica uma imagem como “gato” com 90% de confiança, o restante da distribuição importa: 5% para “lince” e 3% para “cachorro” codifica que gatos se parecem mais com linces que com aviões. Essas probabilidades suaves transmitem estrutura semântica que rótulos binários perdem completamente. É por isso que o aluno aprende mais rápido das probabilidades do professor do que dos rótulos originais.

Destilação em LLMs

Para modelos de linguagem, a destilação tipicamente envolve gerar milhões de respostas do modelo professor e treinar o aluno nessas respostas. Muitos modelos open-weight populares como Phi e Gemma usam dados destilados extensivamente. A qualidade dos dados de destilação importa mais que o volume.

Destilação

Por que isso importa

Em profundidade

O Conhecimento Sombrio

Destilação em LLMs

Conceitos relacionados