Dans un Transformer, chaque couche (appelée « bloc ») se compose de deux sous-couches : une couche d'attention multi-têtes (qui mélange l'information entre les tokens) et un réseau feedforward (qui traite chaque token indépendamment). Chaque sous-couche a une connexion résiduelle (l'entrée est rajoutée à la sortie) et une normalisation. Un Transformer de 32 couches applique ce pattern attention+FFN 32 fois, affinant la représentation à chaque passage.
La recherche a révélé un schéma approximatif dans les LLM : les premières couches gèrent la syntaxe et les patterns de surface, les couches intermédiaires gèrent le sens sémantique et la reconnaissance d'entités, et les couches finales gèrent le raisonnement spécifique à la tâche et le formatage de la sortie. Ce n'est pas une frontière rigide — l'information circule à travers toutes les couches via les connexions résiduelles — mais ça explique pourquoi certaines techniques d'ajustement fin ne modifient que certaines couches et pourquoi élaguer les couches intermédiaires fait souvent plus mal qu'élaguer les premières ou les dernières.
La « largeur » d'un réseau est le nombre de neurones par couche (la dimension du modèle). Sa « profondeur » est le nombre de couches. Les deux comptent, mais contribuent différemment : des couches plus larges peuvent représenter plus de caractéristiques simultanément, tandis que des réseaux plus profonds peuvent apprendre des patterns plus complexes et compositionnels. Les LLM modernes sont à la fois larges (dimensions de 4096–8192) et profonds (32–128 couches). Les lois d'échelle suggèrent que largeur et profondeur devraient être mises à l'échelle ensemble pour une performance optimale.