訓練一個較小的「學生」模型來模仿一個較大的「教師」模型,方法是從教師的軟機率分布(而非硬標籤)中學習。軟輸出編碼了硬標籤無法傳達的類別間關係。
Hinton 等人(2015)的洞見:教師的機率包含「暗知識」。對 LLM 來說:從教師模型生成回應,然後在這些回應上微調學生模型。蒸餾 vs 量化:蒸餾創建一個新的更小模型;量化則是縮減同一模型的精度。