Poda: Definición y significado — Wiki de IA

Eliminar parámetros innecesarios (pesos, neuronas o capas enteras) de un modelo entrenado para hacerlo más pequeño y rápido sin pérdida significativa de calidad. Como podar un árbol: cortas las ramas que menos contribuyen y el árbol se mantiene saludable. La poda estructurada elimina neuronas o cabezas de atención enteras. La poda no estructurada pone a cero pesos individuales.

Por qué importa

La poda es una técnica de compresión de modelos junto con la cuantización y la destilación. La idea clave: la mayoría de las redes neuronales están sobreparametrizadas — muchos pesos contribuyen poco a la salida. La "hipótesis del billete de lotería" sugiere que dentro de una red grande, existe una subred mucho más pequeña que puede igualar el rendimiento del original. La poda encuentra y conserva esa subred.

En profundidad

La poda no estructurada pone a cero pesos individuales según su magnitud (los pesos más pequeños contribuyen menos). Esto crea matrices de pesos dispersas. El desafío: el hardware estándar no maneja eficientemente los cálculos dispersos, así que un modelo podado al 50% no se ejecuta 2 veces más rápido en una GPU — la aceleración requiere bibliotecas de computación dispersa especializadas o hardware especializado. Esto limita el beneficio práctico de la poda no estructurada.

Poda estructurada

La poda estructurada elimina neuronas, cabezas de atención o capas enteras. Esto produce un modelo denso más pequeño que se ejecuta más rápido en hardware estándar sin necesidad de soporte de computación dispersa. La investigación muestra que muchas cabezas de atención son redundantes — eliminar el 20–40% de las cabezas en un Transformer a menudo tiene un impacto mínimo en el rendimiento. Algunas cabezas contribuyen consistentemente más que otras, y las cabezas importantes pueden identificarse mediante puntuaciones de importancia basadas en gradientes.

Poda + cuantización + destilación

Las tres técnicas de compresión se complementan bien: podar parámetros redundantes, cuantizar los pesos restantes a menor precisión y, opcionalmente, destilar del modelo original para recuperar cualquier pérdida de calidad. Este pipeline puede reducir un modelo al 10–20% de su tamaño original mientras retiene el 95%+ de su capacidad. El orden importa: típicamente primero podar, luego cuantizar el modelo podado y después hacer fine-tuning para recuperar calidad.

Poda

Por qué importa

En profundidad

Poda estructurada

Poda + cuantización + destilación

Conceptos relacionados