Em um Transformer, cada camada (chamada de "bloco") consiste em duas subcamadas: uma camada de atenção multi-head (que mistura informações entre tokens) e uma rede feedforward (que processa cada token independentemente). Cada subcamada tem uma conexão residual (a entrada é adicionada de volta à saída) e normalização. Um Transformer de 32 camadas aplica esse padrão atenção+FFN 32 vezes, refinando a representação a cada vez.
Pesquisas revelaram um padrão aproximado em LLMs: camadas iniciais lidam com sintaxe e padrões superficiais, camadas do meio lidam com significado semântico e reconhecimento de entidades, e camadas finais lidam com raciocínio específico da tarefa e formatação de saída. Não é uma fronteira rígida — a informação flui por todas as camadas via conexões residuais — mas explica por que algumas técnicas de fine-tuning modificam apenas certas camadas e por que podar camadas do meio frequentemente prejudica mais do que podar camadas iniciais ou finais.
A "largura" de uma rede é o número de neurônios por camada (a dimensão do modelo). Sua "profundidade" é o número de camadas. Ambos importam, mas contribuem de formas diferentes: camadas mais largas podem representar mais características simultaneamente, enquanto redes mais profundas podem aprender padrões mais complexos e composicionais. LLMs modernos tendem a ser tanto largos (dimensões de 4096–8192) quanto profundos (32–128 camadas). Leis de escala sugerem que largura e profundidade devem ser escaladas juntas para desempenho ótimo.