Conexão Residual: Definição e significado — Wiki de IA

Uma conexão que contorna uma ou mais camadas adicionando a entrada diretamente à saída: output = layer(x) + x. Em vez de cada camada aprender uma transformação completa, ela só precisa aprender o "resíduo" — a diferença em relação à função identidade. Conexões residuais estão em toda camada de Transformer e são essenciais para treinar redes profundas.

Por que isso importa

Sem conexões residuais, redes profundas são quase impossíveis de treinar — os gradientes desaparecem ou explodem ao longo de muitas camadas. Conexões residuais fornecem uma via expressa para gradientes que permite que informações (e gradientes) fluam diretamente das camadas iniciais para as finais, contornando qualquer número de transformações intermediárias. São o motivo pelo qual conseguimos treinar redes com mais de 100 camadas.

Em profundidade

Introduzidas no ResNet (He et al., 2015), as conexões residuais resolveram o "problema de degradação": redes mais profundas tinham desempenho pior que redes rasas, não por overfitting mas porque a otimização se tornava mais difícil. A percepção: é mais fácil aprender f(x) = 0 (o resíduo é nada, apenas passe a entrada) do que aprender f(x) = x (reproduzir a entrada perfeitamente). Conexões residuais tornam a função identidade o padrão, e cada camada só precisa aprender modificações úteis.

Em Transformers

Cada camada de Transformer aplica duas conexões residuais: uma ao redor da subcamada de atenção (x + attention(x)) e uma ao redor da subcamada feedforward (x + ffn(x)). Isso significa que a entrada da camada 1 tem um caminho aditivo direto até a saída da camada 32 — é adicionada de volta a cada passo. Esse "fluxo residual" é um conceito central na interpretabilidade mecanística: cada camada lê e escreve nesse fluxo compartilhado, e a saída final é a soma das contribuições de todas as camadas.

A Visão do Fluxo Residual

Pensar em um Transformer como um fluxo residual com camadas que leem e escrevem nele (em vez de um pipeline sequencial) muda como você entende a arquitetura. Camadas de atenção movem informação entre posições no fluxo. Camadas FFN transformam informação em cada posição. A saída final é a entrada original mais todas as modificações de todas as camadas. Essa visão explica por que você frequentemente pode remover camadas com impacto limitado — o fluxo residual preserva informação mesmo quando camadas individuais são puladas.

Conexão Residual

Por que isso importa

Em profundidade

Em Transformers

A Visão do Fluxo Residual

Conceitos relacionados