Residual Connection: परिभाषा और अर्थ — AI विकी

एक कनेक्शन जो एक या अधिक लेयर्स को बायपास करता है, इनपुट को सीधे आउटपुट में जोड़कर: output = layer(x) + x। प्रत्येक लेयर को एक पूर्ण परिवर्तन सीखने के बजाय, इसे केवल "residual" सीखने की आवश्यकता है — आइडेंटिटी फंक्शन से अंतर। Residual connections हर Transformer लेयर में होते हैं और गहरे नेटवर्क को प्रशिक्षित करने के लिए आवश्यक हैं।

यह क्यों मायने रखता है

Residual connections के बिना, गहरे नेटवर्क को प्रशिक्षित करना लगभग असंभव है — ग्रेडिएंट कई लेयर्स में या तो लुप्त हो जाते हैं या विस्फोट करते हैं। Residual connections एक ग्रेडिएंट हाईवे प्रदान करते हैं जो सूचना (और ग्रेडिएंट) को सीधे प्रारंभिक लेयर्स से अंतिम लेयर्स तक प्रवाहित करने देता है, किसी भी संख्या में मध्यवर्ती परिवर्तनों को बायपास करते हुए। यही कारण है कि हम 100+ लेयर के नेटवर्क बिल्कुल भी प्रशिक्षित कर सकते हैं।

गहन अध्ययन

ResNet (He et al., 2015) में प्रस्तुत, residual connections ने "degradation problem" हल किया: गहरे नेटवर्क उथले नेटवर्क से खराब प्रदर्शन करते थे, ओवरफिटिंग के कारण नहीं बल्कि इसलिए कि ऑप्टिमाइज़ेशन कठिन हो गया था। अंतर्दृष्टि: f(x) = 0 सीखना आसान है (residual कुछ नहीं है, बस इनपुट को पास करें) बजाय f(x) = x सीखने के (इनपुट को पूरी तरह से पुन: उत्पन्न करें)। Residual connections आइडेंटिटी फंक्शन को डिफ़ॉल्ट बनाते हैं, और प्रत्येक लेयर को केवल उपयोगी संशोधन सीखने की आवश्यकता है।

Transformers में

प्रत्येक Transformer लेयर दो residual connections लागू करता है: एक attention सब-लेयर के चारों ओर (x + attention(x)) और एक feedforward सब-लेयर के चारों ओर (x + ffn(x))। इसका मतलब है कि लेयर 1 के इनपुट का लेयर 32 के आउटपुट तक एक सीधा योगात्मक पथ है — यह हर चरण में वापस जोड़ा जाता है। यह "residual stream" mechanistic interpretability में एक केंद्रीय अवधारणा है: प्रत्येक लेयर इस साझा स्ट्रीम से पढ़ता और लिखता है, और अंतिम आउटपुट सभी लेयर्स के योगदान का योग है।

Residual Stream दृष्टिकोण

एक Transformer को एक residual stream के रूप में सोचना जिसमें लेयर्स पढ़ते और लिखते हैं (एक क्रमिक पाइपलाइन के बजाय) आर्किटेक्चर की आपकी समझ को बदल देता है। Attention लेयर्स स्ट्रीम में स्थितियों के बीच सूचना ले जाते हैं। FFN लेयर्स प्रत्येक स्थिति पर सूचना को रूपांतरित करते हैं। अंतिम आउटपुट मूल इनपुट प्लस सभी लेयर्स से सभी संशोधन है। यह दृष्टिकोण बताता है कि आप अक्सर सीमित प्रभाव के साथ लेयर्स को हटा क्यों सकते हैं — residual stream सूचना को संरक्षित करता है भले ही व्यक्तिगत लेयर्स को छोड़ दिया जाए।

Residual Connection

यह क्यों मायने रखता है

गहन अध्ययन

Transformers में

Residual Stream दृष्टिकोण

संबंधित अवधारणाएँ