Couche : Définition et signification — Wiki IA

Un groupe de neurones qui traite les données à un niveau d'abstraction spécifique dans un réseau de neurones. La couche d'entrée reçoit les données brutes. Les couches cachées (celles du milieu) apprennent des représentations de plus en plus abstraites. La couche de sortie produit le résultat final. L'apprentissage « profond » signifie beaucoup de couches cachées — les LLM modernes en ont de 32 à 128+.

Pourquoi c'est important

Les couches créent la hiérarchie qui rend l'apprentissage profond puissant. Les premières couches apprennent des patterns simples (des bords dans les images, des fragments de mots dans le texte). Les couches intermédiaires combinent ces patterns en concepts (visages, phrases). Les couches profondes combinent les concepts en compréhension de haut niveau (reconnaissance de scènes, raisonnement). La profondeur d'un réseau détermine la complexité des patterns qu'il peut apprendre.

En profondeur

Dans un Transformer, chaque couche (appelée « bloc ») se compose de deux sous-couches : une couche d'attention multi-têtes (qui mélange l'information entre les tokens) et un réseau feedforward (qui traite chaque token indépendamment). Chaque sous-couche a une connexion résiduelle (l'entrée est rajoutée à la sortie) et une normalisation. Un Transformer de 32 couches applique ce pattern attention+FFN 32 fois, affinant la représentation à chaque passage.

Ce qui se passe d'une couche à l'autre

La recherche a révélé un schéma approximatif dans les LLM : les premières couches gèrent la syntaxe et les patterns de surface, les couches intermédiaires gèrent le sens sémantique et la reconnaissance d'entités, et les couches finales gèrent le raisonnement spécifique à la tâche et le formatage de la sortie. Ce n'est pas une frontière rigide — l'information circule à travers toutes les couches via les connexions résiduelles — mais ça explique pourquoi certaines techniques d'ajustement fin ne modifient que certaines couches et pourquoi élaguer les couches intermédiaires fait souvent plus mal qu'élaguer les premières ou les dernières.

Largeur vs. profondeur

La « largeur » d'un réseau est le nombre de neurones par couche (la dimension du modèle). Sa « profondeur » est le nombre de couches. Les deux comptent, mais contribuent différemment : des couches plus larges peuvent représenter plus de caractéristiques simultanément, tandis que des réseaux plus profonds peuvent apprendre des patterns plus complexes et compositionnels. Les LLM modernes sont à la fois larges (dimensions de 4096–8192) et profonds (32–128 couches). Les lois d'échelle suggèrent que largeur et profondeur devraient être mises à l'échelle ensemble pour une performance optimale.

Couche

Pourquoi c'est important

En profondeur

Ce qui se passe d'une couche à l'autre

Largeur vs. profondeur

Concepts connexes