Entraîner un modèle « élève » plus petit à imiter un modèle « professeur » plus grand en apprenant à partir des distributions de probabilité souples du professeur plutôt que des labels bruts. Les sorties souples encodent des relations entre catégories que les labels bruts ne transmettent pas.
Pourquoi c'est important
La distillation rend l'IA puissante accessible. Une distillation 70B→7B peut capturer 90% des capacités à 10% du coût. Beaucoup de modèles exécutés localement sont distillés à partir de modèles frontière.
En profondeur
L'insight de Hinton et al. (2015) : les probabilités du professeur contiennent un « savoir obscur ». Pour les LLM : générer des réponses avec le professeur, faire du fine-tuning de l'élève dessus. Distillation vs quantification : la distillation crée un nouveau modèle plus petit ; la quantification réduit la précision du même modèle.