Connexion résiduelle : Définition et signification — Wiki IA

Une connexion qui contourne une ou plusieurs couches en ajoutant directement l'entrée à la sortie : output = layer(x) + x. Au lieu que chaque couche apprenne une transformation complète, elle n'a qu'à apprendre le "résidu" — la différence par rapport à la fonction identité. Les connexions résiduelles sont présentes dans chaque couche de Transformer et sont essentielles pour entraîner des réseaux profonds.

Pourquoi c'est important

Sans connexions résiduelles, les réseaux profonds sont quasi impossibles à entraîner — les gradients s'évanouissent ou explosent à travers de nombreuses couches. Les connexions résiduelles fournissent une autoroute de gradients qui permet à l'information (et aux gradients) de circuler directement des couches initiales aux couches finales, en contournant n'importe quel nombre de transformations intermédiaires. C'est grâce à elles qu'on peut entraîner des réseaux de 100+ couches.

En profondeur

Introduites dans ResNet (He et al., 2015), les connexions résiduelles ont résolu le "problème de dégradation" : les réseaux plus profonds performaient moins bien que les réseaux peu profonds, non pas à cause du surajustement mais parce que l'optimisation devenait plus difficile. L'idée clé : il est plus facile d'apprendre f(x) = 0 (le résidu est nul, on laisse juste passer l'entrée) que d'apprendre f(x) = x (reproduire l'entrée parfaitement). Les connexions résiduelles font de la fonction identité le comportement par défaut, et chaque couche n'a qu'à apprendre des modifications utiles.

Dans les Transformers

Chaque couche de Transformer applique deux connexions résiduelles : une autour de la sous-couche d'attention (x + attention(x)) et une autour de la sous-couche feedforward (x + ffn(x)). Cela signifie que l'entrée de la couche 1 a un chemin additif direct vers la sortie de la couche 32 — elle est rajoutée à chaque étape. Ce "flux résiduel" est un concept central en interprétabilité mécaniste : chaque couche lit et écrit dans ce flux partagé, et la sortie finale est la somme des contributions de toutes les couches.

La vision du flux résiduel

Penser à un Transformer comme un flux résiduel avec des couches qui y lisent et y écrivent (plutôt qu'un pipeline séquentiel) change la façon dont tu comprends l'architecture. Les couches d'attention déplacent l'information entre les positions dans le flux. Les couches FFN transforment l'information à chaque position. La sortie finale est l'entrée originale plus toutes les modifications de toutes les couches. Cette vision explique pourquoi tu peux souvent retirer des couches avec un impact limité — le flux résiduel préserve l'information même quand des couches individuelles sont sautées.

Connexion résiduelle

Pourquoi c'est important

En profondeur

Dans les Transformers

La vision du flux résiduel

Concepts connexes