Zubnet AIApprendreWiki › Layer
Fondamentaux

Layer

Hidden Layer, Neural Network Layer
Un groupe de neurones qui traite les données à un niveau d'abstraction spécifique dans un réseau de neurones. La couche d'entrée reçoit les données brutes. Les couches cachées (celles du milieu) apprennent des représentations de plus en plus abstraites. La couche de sortie produit le résultat final. « Deep » learning veut dire beaucoup de couches cachées — les LLM modernes ont 32 à 128+ couches.

Pourquoi c'est important

Les couches créent la hiérarchie qui rend le deep learning puissant. Les premières couches apprennent des patterns simples (contours dans les images, fragments de mots dans le texte). Les couches du milieu combinent ça en concepts (visages, phrases). Les couches profondes combinent les concepts en compréhension de haut niveau (reconnaissance de scènes, raisonnement). La profondeur d'un réseau détermine la complexité des patterns qu'il peut apprendre.

Deep Dive

In a Transformer, each layer (called a "block") consists of two sub-layers: a multi-head attention layer (which mixes information across tokens) and a feedforward network (which processes each token independently). Each sub-layer has a residual connection (the input is added back to the output) and normalization. A 32-layer Transformer applies this attention+FFN pattern 32 times, each time refining the representation.

What Happens Across Layers

Research has revealed a rough pattern in LLMs: early layers handle syntax and surface patterns, middle layers handle semantic meaning and entity recognition, and late layers handle task-specific reasoning and output formatting. This isn't a hard boundary — information flows through all layers via residual connections — but it explains why some fine-tuning techniques only modify certain layers and why pruning middle layers often hurts more than pruning early or late ones.

Width vs. Depth

A network's "width" is the number of neurons per layer (the model dimension). Its "depth" is the number of layers. Both matter, but they contribute differently: wider layers can represent more features simultaneously, while deeper networks can learn more complex, compositional patterns. Modern LLMs tend to be both wide (dimensions of 4096–8192) and deep (32–128 layers). Scaling laws suggest that width and depth should be scaled together for optimal performance.

Concepts liés

← Tous les termes
← Latency Apprendreing Rate Schedule →