Introduzidas no ResNet (He et al., 2015), as conexões residuais resolveram o "problema de degradação": redes mais profundas tinham desempenho pior que redes rasas, não por overfitting mas porque a otimização se tornava mais difícil. A percepção: é mais fácil aprender f(x) = 0 (o resíduo é nada, apenas passe a entrada) do que aprender f(x) = x (reproduzir a entrada perfeitamente). Conexões residuais tornam a função identidade o padrão, e cada camada só precisa aprender modificações úteis.
Cada camada de Transformer aplica duas conexões residuais: uma ao redor da subcamada de atenção (x + attention(x)) e uma ao redor da subcamada feedforward (x + ffn(x)). Isso significa que a entrada da camada 1 tem um caminho aditivo direto até a saída da camada 32 — é adicionada de volta a cada passo. Esse "fluxo residual" é um conceito central na interpretabilidade mecanística: cada camada lê e escreve nesse fluxo compartilhado, e a saída final é a soma das contribuições de todas as camadas.
Pensar em um Transformer como um fluxo residual com camadas que leem e escrevem nele (em vez de um pipeline sequencial) muda como você entende a arquitetura. Camadas de atenção movem informação entre posições no fluxo. Camadas FFN transformam informação em cada posição. A saída final é a entrada original mais todas as modificações de todas as camadas. Essa visão explica por que você frequentemente pode remover camadas com impacto limitado — o fluxo residual preserva informação mesmo quando camadas individuais são puladas.