ResNet (He et al., 2015) में प्रस्तुत, residual connections ने "degradation problem" हल किया: गहरे नेटवर्क उथले नेटवर्क से खराब प्रदर्शन करते थे, ओवरफिटिंग के कारण नहीं बल्कि इसलिए कि ऑप्टिमाइज़ेशन कठिन हो गया था। अंतर्दृष्टि: f(x) = 0 सीखना आसान है (residual कुछ नहीं है, बस इनपुट को पास करें) बजाय f(x) = x सीखने के (इनपुट को पूरी तरह से पुन: उत्पन्न करें)। Residual connections आइडेंटिटी फंक्शन को डिफ़ॉल्ट बनाते हैं, और प्रत्येक लेयर को केवल उपयोगी संशोधन सीखने की आवश्यकता है।
प्रत्येक Transformer लेयर दो residual connections लागू करता है: एक attention सब-लेयर के चारों ओर (x + attention(x)) और एक feedforward सब-लेयर के चारों ओर (x + ffn(x))। इसका मतलब है कि लेयर 1 के इनपुट का लेयर 32 के आउटपुट तक एक सीधा योगात्मक पथ है — यह हर चरण में वापस जोड़ा जाता है। यह "residual stream" mechanistic interpretability में एक केंद्रीय अवधारणा है: प्रत्येक लेयर इस साझा स्ट्रीम से पढ़ता और लिखता है, और अंतिम आउटपुट सभी लेयर्स के योगदान का योग है।
एक Transformer को एक residual stream के रूप में सोचना जिसमें लेयर्स पढ़ते और लिखते हैं (एक क्रमिक पाइपलाइन के बजाय) आर्किटेक्चर की आपकी समझ को बदल देता है। Attention लेयर्स स्ट्रीम में स्थितियों के बीच सूचना ले जाते हैं। FFN लेयर्स प्रत्येक स्थिति पर सूचना को रूपांतरित करते हैं। अंतिम आउटपुट मूल इनपुट प्लस सभी लेयर्स से सभी संशोधन है। यह दृष्टिकोण बताता है कि आप अक्सर सीमित प्रभाव के साथ लेयर्स को हटा क्यों सकते हैं — residual stream सूचना को संरक्षित करता है भले ही व्यक्तिगत लेयर्स को छोड़ दिया जाए।