Zubnet AIAprenderWiki › Pruning
Training

Pruning

Model Pruning, Weight Pruning
Remover parâmetros desnecessários (pesos, neurônios ou camadas inteiras) de um modelo treinado para torná-lo menor e mais rápido sem perda significativa de qualidade. Como podar uma árvore: corte os galhos que contribuem menos e a árvore permanece saudável. Pruning estruturado remove neurônios ou cabeças de atenção inteiras. Pruning não estruturado zera pesos individuais.

Por que importa

Pruning é uma técnica de compressão de modelo junto com quantização e destilação. O insight-chave: a maioria das redes neurais é superparametrizada — muitos pesos contribuem pouco para a saída. A “hipótese do bilhete de loteria” sugere que dentro de uma rede grande, existe uma sub-rede muito menor que pode igualar a performance da original. Pruning encontra e mantém essa sub-rede.

Deep Dive

Unstructured pruning sets individual weights to zero based on magnitude (smallest weights contribute least). This creates sparse weight matrices. The challenge: standard hardware doesn't efficiently handle sparse computations, so a model that's 50% pruned doesn't run 2x faster on a GPU — the speedup requires specialized sparse computation libraries or hardware. This limits unstructured pruning's practical benefit.

Structured Pruning

Structured pruning removes entire neurons, attention heads, or layers. This produces a smaller dense model that runs faster on standard hardware without needing sparse computation support. Research shows that many attention heads are redundant — removing 20–40% of heads in a Transformer often has minimal impact on performance. Some heads consistently contribute more than others, and the important heads can be identified through gradient-based importance scores.

Pruning + Quantization + Distillation

The three compression techniques compose well: prune redundant parameters, quantize the remaining weights to lower precision, and optionally distill from the original model to recover any quality loss. This pipeline can reduce a model to 10–20% of its original size while retaining 95%+ of its capability. The order matters: typically prune first, then quantize the pruned model, then fine-tune to recover quality.

Conceitos relacionados

← Todos os termos
← Prompt Template Quantization →