El insight de Hinton et al. (2015): las probabilidades del maestro contienen “conocimiento oscuro”. Cuando un modelo clasificador dice que una imagen es 90% gato, 8% lince y 2% perro, esas probabilidades secundarias revelan que gatos y linces son visualmente similares — información que una etiqueta dura de "gato" no captura.
Para LLMs, el proceso es: genera respuestas del modelo maestro, haz fine-tuning del estudiante con esas respuestas. Es así de simple en concepto, aunque los detalles (selección de datos, filtrado de calidad, diversidad de prompts) importan enormemente. Muchos modelos open-weight de 7B–13B que rinden sorprendentemente bien fueron destilados de modelos mucho más grandes.
Una confusión común: la destilación crea un modelo nuevo y más pequeño con menos parámetros. La cuantización toma el mismo modelo y reduce la precisión de sus pesos (por ejemplo, de 16 bits a 4 bits). Son técnicas complementarias — puedes destilar un modelo grande en uno pequeño y luego cuantizar el modelo pequeño para hacerlo aún más eficiente.