Conexión residual: Definición y significado — Wiki de IA

Una conexión que evita una o más capas agregando la entrada directamente a la salida: output = layer(x) + x. En lugar de que cada capa aprenda una transformación completa, solo necesita aprender el "residual" — la diferencia respecto a la función identidad. Las conexiones residuales están en cada capa de Transformer y son esenciales para entrenar redes profundas.

Por qué importa

Sin conexiones residuales, las redes profundas son casi imposibles de entrenar — los gradientes se desvanecen o explotan a través de muchas capas. Las conexiones residuales proporcionan una autopista de gradientes que permite que la información (y los gradientes) fluyan directamente desde las capas tempranas hasta las tardías, saltándose cualquier cantidad de transformaciones intermedias. Son la razón por la que podemos entrenar redes de más de 100 capas.

En profundidad

Introducidas en ResNet (He et al., 2015), las conexiones residuales resolvieron el "problema de degradación": las redes más profundas rendían peor que las superficiales, no por sobreajuste sino porque la optimización se volvía más difícil. La idea: es más fácil aprender f(x) = 0 (el residual es nada, simplemente pasa la entrada) que aprender f(x) = x (reproducir la entrada perfectamente). Las conexiones residuales hacen de la función identidad el comportamiento por defecto, y cada capa solo necesita aprender modificaciones útiles.

En Transformers

Cada capa de Transformer aplica dos conexiones residuales: una alrededor de la subcapa de atención (x + attention(x)) y otra alrededor de la subcapa feedforward (x + ffn(x)). Esto significa que la entrada de la capa 1 tiene un camino aditivo directo hacia la salida de la capa 32 — se suma de nuevo en cada paso. Este "flujo residual" es un concepto central en la interpretabilidad mecanicista: cada capa lee y escribe en este flujo compartido, y la salida final es la suma de las contribuciones de todas las capas.

La visión del flujo residual

Pensar en un Transformer como un flujo residual donde las capas leen y escriben (en lugar de un pipeline secuencial) cambia cómo entiendes la arquitectura. Las capas de atención mueven información entre posiciones en el flujo. Las capas FFN transforman información en cada posición. La salida final es la entrada original más todas las modificaciones de todas las capas. Esta visión explica por qué a menudo puedes eliminar capas con impacto limitado — el flujo residual preserva la información incluso cuando se saltan capas individuales.

Conexión residual

Por qué importa

En profundidad

En Transformers

La visión del flujo residual

Conceptos relacionados