Introducidas en ResNet (He et al., 2015), las conexiones residuales resolvieron el "problema de degradación": las redes más profundas rendían peor que las superficiales, no por sobreajuste sino porque la optimización se volvía más difícil. La idea: es más fácil aprender f(x) = 0 (el residual es nada, simplemente pasa la entrada) que aprender f(x) = x (reproducir la entrada perfectamente). Las conexiones residuales hacen de la función identidad el comportamiento por defecto, y cada capa solo necesita aprender modificaciones útiles.
Cada capa de Transformer aplica dos conexiones residuales: una alrededor de la subcapa de atención (x + attention(x)) y otra alrededor de la subcapa feedforward (x + ffn(x)). Esto significa que la entrada de la capa 1 tiene un camino aditivo directo hacia la salida de la capa 32 — se suma de nuevo en cada paso. Este "flujo residual" es un concepto central en la interpretabilidad mecanicista: cada capa lee y escribe en este flujo compartido, y la salida final es la suma de las contribuciones de todas las capas.
Pensar en un Transformer como un flujo residual donde las capas leen y escriben (en lugar de un pipeline secuencial) cambia cómo entiendes la arquitectura. Las capas de atención mueven información entre posiciones en el flujo. Las capas FFN transforman información en cada posición. La salida final es la entrada original más todas las modificaciones de todas las capas. Esta visión explica por qué a menudo puedes eliminar capas con impacto limitado — el flujo residual preserva la información incluso cuando se saltan capas individuales.