訓練

Distillation（蒸餾）

別名：知識蒸餾

訓練一個較小的「學生」模型來模仿一個較大的「教師」模型，方法是從教師的軟機率分布（而非硬標籤）中學習。軟輸出編碼了硬標籤無法傳達的類別間關係。

為什麼重要

蒸餾讓強大的 AI 變得可及。一次 70B→7B 的蒸餾可以在 10% 的成本下保留 90% 的能力。許多本地運行的模型都是從前沿模型蒸餾而來。

深度解析

Hinton 等人（2015）的洞見：教師的機率包含「暗知識」。對 LLM 來說：從教師模型生成回應，然後在這些回應上微調學生模型。蒸餾 vs 量化：蒸餾創建一個新的更小模型；量化則是縮減同一模型的精度。

相關概念

← 所有術語