Zubnet AIAprenderWiki › Poda
Treinamento

Poda

Também conhecido como: Poda de Modelo, Poda de Pesos
Remover parâmetros desnecessários (pesos, neurônios ou camadas inteiras) de um modelo treinado para torná-lo menor e mais rápido sem perda significativa de qualidade. Como podar uma árvore: corte os galhos que menos contribuem e a árvore continua saudável. Poda estruturada remove neurônios ou attention heads inteiros. Poda não-estruturada zera pesos individuais.

Por que isso importa

Poda é uma técnica de compressão de modelos junto com quantização e destilação. O insight-chave: a maioria das redes neurais é superparametrizada — muitos pesos contribuem pouco para a saída. A "hipótese do bilhete premiado" sugere que dentro de uma rede grande, existe uma subrede muito menor que pode igualar o desempenho da original. Poda encontra e mantém essa subrede.

Em profundidade

Poda não-estruturada zera pesos individuais com base na magnitude (pesos menores contribuem menos). Isso cria matrizes de pesos esparsas. O desafio: hardware padrão não lida eficientemente com computações esparsas, então um modelo 50% podado não roda 2x mais rápido em uma GPU — a aceleração requer bibliotecas especializadas de computação esparsa ou hardware dedicado. Isso limita o benefício prático da poda não-estruturada.

Poda Estruturada

Poda estruturada remove neurônios, attention heads ou camadas inteiros. Isso produz um modelo denso menor que roda mais rápido em hardware padrão sem precisar de suporte a computação esparsa. Pesquisas mostram que muitos attention heads são redundantes — remover 20–40% dos heads em um Transformer frequentemente tem impacto mínimo no desempenho. Alguns heads contribuem consistentemente mais que outros, e os heads importantes podem ser identificados através de scores de importância baseados em gradiente.

Poda + Quantização + Destilação

As três técnicas de compressão compõem bem: podar parâmetros redundantes, quantizar os pesos restantes para menor precisão e, opcionalmente, destilar do modelo original para recuperar qualquer perda de qualidade. Esse pipeline pode reduzir um modelo a 10–20% do seu tamanho original enquanto retém 95%+ da sua capacidade. A ordem importa: tipicamente podar primeiro, depois quantizar o modelo podado, depois fine-tune para recuperar qualidade.

Conceitos relacionados

← Todos os termos
← PixVerse Pooling →