Introduites dans ResNet (He et al., 2015), les connexions résiduelles ont résolu le "problème de dégradation" : les réseaux plus profonds performaient moins bien que les réseaux peu profonds, non pas à cause du surajustement mais parce que l'optimisation devenait plus difficile. L'idée clé : il est plus facile d'apprendre f(x) = 0 (le résidu est nul, on laisse juste passer l'entrée) que d'apprendre f(x) = x (reproduire l'entrée parfaitement). Les connexions résiduelles font de la fonction identité le comportement par défaut, et chaque couche n'a qu'à apprendre des modifications utiles.
Chaque couche de Transformer applique deux connexions résiduelles : une autour de la sous-couche d'attention (x + attention(x)) et une autour de la sous-couche feedforward (x + ffn(x)). Cela signifie que l'entrée de la couche 1 a un chemin additif direct vers la sortie de la couche 32 — elle est rajoutée à chaque étape. Ce "flux résiduel" est un concept central en interprétabilité mécaniste : chaque couche lit et écrit dans ce flux partagé, et la sortie finale est la somme des contributions de toutes les couches.
Penser à un Transformer comme un flux résiduel avec des couches qui y lisent et y écrivent (plutôt qu'un pipeline séquentiel) change la façon dont tu comprends l'architecture. Les couches d'attention déplacent l'information entre les positions dans le flux. Les couches FFN transforment l'information à chaque position. La sortie finale est l'entrée originale plus toutes les modifications de toutes les couches. Cette vision explique pourquoi tu peux souvent retirer des couches avec un impact limité — le flux résiduel préserve l'information même quand des couches individuelles sont sautées.