Élagage : Définition et signification — Wiki IA

Retirer les paramètres inutiles (poids, neurones ou couches entières) d'un modèle entraîné pour le rendre plus petit et plus rapide sans perte significative de qualité. Comme tailler un arbre : coupe les branches qui contribuent le moins et l'arbre reste en bonne santé. L'élagage structuré retire des neurones entiers ou des têtes d'attention. L'élagage non structuré met à zéro des poids individuels.

Pourquoi c'est important

L'élagage est une technique de compression de modèle aux côtés de la quantification et de la distillation. L'intuition clé : la plupart des réseaux de neurones sont surparamétrés — beaucoup de poids contribuent peu à la sortie. L'hypothèse du « ticket de loterie » suggère qu'au sein d'un grand réseau, il existe un sous-réseau beaucoup plus petit capable d'égaler les performances de l'original. L'élagage trouve et conserve ce sous-réseau.

En profondeur

L'élagage non structuré met des poids individuels à zéro en se basant sur leur magnitude (les plus petits poids contribuent le moins). Ça crée des matrices de poids creuses. Le défi : le matériel standard ne gère pas efficacement les calculs creux, donc un modèle élagué à 50 % ne tourne pas 2x plus vite sur un GPU — l'accélération nécessite des bibliothèques de calcul creux spécialisées ou du matériel dédié. Ça limite le bénéfice pratique de l'élagage non structuré.

Élagage structuré

L'élagage structuré retire des neurones, des têtes d'attention ou des couches entières. Ça produit un modèle dense plus petit qui tourne plus vite sur du matériel standard sans avoir besoin de support de calcul creux. La recherche montre que beaucoup de têtes d'attention sont redondantes — retirer 20 à 40 % des têtes dans un Transformer a souvent un impact minimal sur la performance. Certaines têtes contribuent systématiquement plus que d'autres, et les têtes importantes peuvent être identifiées par des scores d'importance basés sur les gradients.

Élagage + quantification + distillation

Les trois techniques de compression se combinent bien : élaguer les paramètres redondants, quantifier les poids restants en précision réduite, et optionnellement distiller depuis le modèle original pour récupérer toute perte de qualité. Ce pipeline peut réduire un modèle à 10–20 % de sa taille originale tout en conservant 95 %+ de ses capacités. L'ordre compte : on élague d'abord, puis on quantifie le modèle élagué, puis on fait un ajustement fin pour récupérer la qualité.

Élagage

Pourquoi c'est important

En profondeur

Élagage structuré

Élagage + quantification + distillation

Concepts connexes