蒸馏：定义与含义 — AI 维基

训练一个较小的“学生”模型来模仿一个较大的“教师”模型，通过学习教师的软概率分布而非硬标签。软输出编码了硬标签无法传达的类别之间的关系。

为什么重要

蒸馏让强大的AI变得人人可用。一次70B到7B的蒸馏可以在10%的成本下保留90%的能力。许多本地运行的模型都是从前沿模型蒸馏而来。

Hinton等人（2015）的洞见：教师的概率分布包含"暗知识"。对于LLM：让教师生成回复，在这些回复上微调学生。蒸馏与量化的区别：蒸馏创建一个新的更小模型；量化则压缩同一模型的数值精度。