Poda não-estruturada zera pesos individuais com base na magnitude (pesos menores contribuem menos). Isso cria matrizes de pesos esparsas. O desafio: hardware padrão não lida eficientemente com computações esparsas, então um modelo 50% podado não roda 2x mais rápido em uma GPU — a aceleração requer bibliotecas especializadas de computação esparsa ou hardware dedicado. Isso limita o benefício prático da poda não-estruturada.
Poda estruturada remove neurônios, attention heads ou camadas inteiros. Isso produz um modelo denso menor que roda mais rápido em hardware padrão sem precisar de suporte a computação esparsa. Pesquisas mostram que muitos attention heads são redundantes — remover 20–40% dos heads em um Transformer frequentemente tem impacto mínimo no desempenho. Alguns heads contribuem consistentemente mais que outros, e os heads importantes podem ser identificados através de scores de importância baseados em gradiente.
As três técnicas de compressão compõem bem: podar parâmetros redundantes, quantizar os pesos restantes para menor precisão e, opcionalmente, destilar do modelo original para recuperar qualquer perda de qualidade. Esse pipeline pode reduzir um modelo a 10–20% do seu tamanho original enquanto retém 95%+ da sua capacidade. A ordem importa: tipicamente podar primeiro, depois quantizar o modelo podado, depois fine-tune para recuperar qualidade.