La poda no estructurada pone a cero pesos individuales según su magnitud (los pesos más pequeños contribuyen menos). Esto crea matrices de pesos dispersas. El desafío: el hardware estándar no maneja eficientemente los cálculos dispersos, así que un modelo podado al 50% no se ejecuta 2 veces más rápido en una GPU — la aceleración requiere bibliotecas de computación dispersa especializadas o hardware especializado. Esto limita el beneficio práctico de la poda no estructurada.
La poda estructurada elimina neuronas, cabezas de atención o capas enteras. Esto produce un modelo denso más pequeño que se ejecuta más rápido en hardware estándar sin necesidad de soporte de computación dispersa. La investigación muestra que muchas cabezas de atención son redundantes — eliminar el 20–40% de las cabezas en un Transformer a menudo tiene un impacto mínimo en el rendimiento. Algunas cabezas contribuyen consistentemente más que otras, y las cabezas importantes pueden identificarse mediante puntuaciones de importancia basadas en gradientes.
Las tres técnicas de compresión se complementan bien: podar parámetros redundantes, cuantizar los pesos restantes a menor precisión y, opcionalmente, destilar del modelo original para recuperar cualquier pérdida de calidad. Este pipeline puede reducir un modelo al 10–20% de su tamaño original mientras retiene el 95%+ de su capacidad. El orden importa: típicamente primero podar, luego cuantizar el modelo podado y después hacer fine-tuning para recuperar calidad.