En un Transformer, cada capa (llamada "bloque") consta de dos subcapas: una capa de atención multi-cabeza (que mezcla información entre tokens) y una red feedforward (que procesa cada token de forma independiente). Cada subcapa tiene una conexión residual (la entrada se suma de vuelta a la salida) y normalización. Un Transformer de 32 capas aplica este patrón de atención+FFN 32 veces, refinando la representación en cada paso.
La investigación ha revelado un patrón general en los LLMs: las capas tempranas manejan la sintaxis y los patrones superficiales, las capas intermedias manejan el significado semántico y el reconocimiento de entidades, y las capas tardías manejan el razonamiento específico de la tarea y el formato de salida. Esto no es un límite rígido — la información fluye a través de todas las capas mediante conexiones residuales — pero explica por qué algunas técnicas de fine-tuning solo modifican ciertas capas y por qué podar las capas intermedias generalmente causa más daño que podar las tempranas o tardías.
El "ancho" de una red es el número de neuronas por capa (la dimensión del modelo). Su "profundidad" es el número de capas. Ambos importan, pero contribuyen de forma diferente: las capas más anchas pueden representar más características simultáneamente, mientras que las redes más profundas pueden aprender patrones más complejos y compositivos. Los LLMs modernos tienden a ser tanto anchos (dimensiones de 4096–8192) como profundos (32–128 capas). Las leyes de escala sugieren que el ancho y la profundidad deben escalarse juntos para un rendimiento óptimo.