L'élagage non structuré met des poids individuels à zéro en se basant sur leur magnitude (les plus petits poids contribuent le moins). Ça crée des matrices de poids creuses. Le défi : le matériel standard ne gère pas efficacement les calculs creux, donc un modèle élagué à 50 % ne tourne pas 2x plus vite sur un GPU — l'accélération nécessite des bibliothèques de calcul creux spécialisées ou du matériel dédié. Ça limite le bénéfice pratique de l'élagage non structuré.
L'élagage structuré retire des neurones, des têtes d'attention ou des couches entières. Ça produit un modèle dense plus petit qui tourne plus vite sur du matériel standard sans avoir besoin de support de calcul creux. La recherche montre que beaucoup de têtes d'attention sont redondantes — retirer 20 à 40 % des têtes dans un Transformer a souvent un impact minimal sur la performance. Certaines têtes contribuent systématiquement plus que d'autres, et les têtes importantes peuvent être identifiées par des scores d'importance basés sur les gradients.
Les trois techniques de compression se combinent bien : élaguer les paramètres redondants, quantifier les poids restants en précision réduite, et optionnellement distiller depuis le modèle original pour récupérer toute perte de qualité. Ce pipeline peut réduire un modèle à 10–20 % de sa taille originale tout en conservant 95 %+ de ses capacités. L'ordre compte : on élague d'abord, puis on quantifie le modèle élagué, puis on fait un ajustement fin pour récupérer la qualité.