训练一个较小的“学生”模型来模仿一个较大的“教师”模型,通过学习教师的软概率分布而非硬标签。软输出编码了硬标签无法传达的类别之间的关系。
蒸馏让强大的AI变得人人可用。一次70B到7B的蒸馏可以在10%的成本下保留90%的能力。许多本地运行的模型都是从前沿模型蒸馏而来。
Hinton等人(2015)的洞见:教师的概率分布包含"暗知识"。对于LLM:让教师生成回复,在这些回复上微调学生。蒸馏与量化的区别:蒸馏创建一个新的更小模型;量化则压缩同一模型的数值精度。