Distillation : Définition et signification — Wiki IA

Entraîner un modèle « élève » plus petit à imiter un modèle « professeur » plus grand en apprenant à partir des distributions de probabilité souples du professeur plutôt que des labels bruts. Les sorties souples encodent des relations entre catégories que les labels bruts ne transmettent pas.

Pourquoi c'est important

La distillation rend l'IA puissante accessible. Une distillation 70B→7B peut capturer 90% des capacités à 10% du coût. Beaucoup de modèles exécutés localement sont distillés à partir de modèles frontière.

En profondeur

L'insight de Hinton et al. (2015) : les probabilités du professeur contiennent un « savoir obscur ». Pour les LLM : générer des réponses avec le professeur, faire du fine-tuning de l'élève dessus. Distillation vs quantification : la distillation crée un nouveau modèle plus petit ; la quantification réduit la précision du même modèle.

Distillation

Pourquoi c'est important

En profondeur

Concepts connexes