Zubnet AI學習Wiki › Distillation
訓練

Distillation(蒸餾)

別名:知識蒸餾

訓練一個較小的「學生」模型來模仿一個較大的「教師」模型,方法是從教師的軟機率分布(而非硬標籤)中學習。軟輸出編碼了硬標籤無法傳達的類別間關係。

為什麼重要

蒸餾讓強大的 AI 變得可及。一次 70B→7B 的蒸餾可以在 10% 的成本下保留 90% 的能力。許多本地運行的模型都是從前沿模型蒸餾而來。

深度解析

Hinton 等人(2015)的洞見:教師的機率包含「暗知識」。對 LLM 來說:從教師模型生成回應,然後在這些回應上微調學生模型。蒸餾 vs 量化:蒸餾創建一個新的更小模型;量化則是縮減同一模型的精度。

相關概念

← 所有術語