Zubnet AIAprenderWiki › Destilación
Entrenamiento

Destilación

También conocido como: Destilación de conocimiento
Entrenar un modelo “estudiante” más pequeño para imitar a un modelo “maestro” más grande, aprendiendo de las distribuciones de probabilidad suaves del maestro en lugar de etiquetas duras. Las salidas suaves codifican relaciones entre categorías que las etiquetas duras no transmiten.

Por qué importa

La destilación hace accesible la IA poderosa. Una destilación de 70B a 7B puede capturar el 90% de la capacidad con el 10% del costo. Muchos modelos que se ejecutan localmente son destilados de modelos de frontera.

En profundidad

El insight de Hinton et al. (2015): las probabilidades del maestro contienen “conocimiento oscuro”. Cuando un modelo clasificador dice que una imagen es 90% gato, 8% lince y 2% perro, esas probabilidades secundarias revelan que gatos y linces son visualmente similares — información que una etiqueta dura de "gato" no captura.

Destilación en LLMs

Para LLMs, el proceso es: genera respuestas del modelo maestro, haz fine-tuning del estudiante con esas respuestas. Es así de simple en concepto, aunque los detalles (selección de datos, filtrado de calidad, diversidad de prompts) importan enormemente. Muchos modelos open-weight de 7B–13B que rinden sorprendentemente bien fueron destilados de modelos mucho más grandes.

Destilación vs cuantización

Una confusión común: la destilación crea un modelo nuevo y más pequeño con menos parámetros. La cuantización toma el mismo modelo y reduce la precisión de sus pesos (por ejemplo, de 16 bits a 4 bits). Son técnicas complementarias — puedes destilar un modelo grande en uno pequeño y luego cuantizar el modelo pequeño para hacerlo aún más eficiente.

Conceptos relacionados

← Todos los términos
← Descenso de gradiente Diffusion Transformer →