Zubnet AIसीखेंWiki › Residual Connection
मूल तत्व

Residual Connection

इसे भी कहा जाता है: स्किप कनेक्शन, शॉर्टकट कनेक्शन
एक कनेक्शन जो एक या अधिक लेयर्स को बायपास करता है, इनपुट को सीधे आउटपुट में जोड़कर: output = layer(x) + x। प्रत्येक लेयर को एक पूर्ण परिवर्तन सीखने के बजाय, इसे केवल "residual" सीखने की आवश्यकता है — आइडेंटिटी फंक्शन से अंतर। Residual connections हर Transformer लेयर में होते हैं और गहरे नेटवर्क को प्रशिक्षित करने के लिए आवश्यक हैं।

यह क्यों मायने रखता है

Residual connections के बिना, गहरे नेटवर्क को प्रशिक्षित करना लगभग असंभव है — ग्रेडिएंट कई लेयर्स में या तो लुप्त हो जाते हैं या विस्फोट करते हैं। Residual connections एक ग्रेडिएंट हाईवे प्रदान करते हैं जो सूचना (और ग्रेडिएंट) को सीधे प्रारंभिक लेयर्स से अंतिम लेयर्स तक प्रवाहित करने देता है, किसी भी संख्या में मध्यवर्ती परिवर्तनों को बायपास करते हुए। यही कारण है कि हम 100+ लेयर के नेटवर्क बिल्कुल भी प्रशिक्षित कर सकते हैं।

गहन अध्ययन

ResNet (He et al., 2015) में प्रस्तुत, residual connections ने "degradation problem" हल किया: गहरे नेटवर्क उथले नेटवर्क से खराब प्रदर्शन करते थे, ओवरफिटिंग के कारण नहीं बल्कि इसलिए कि ऑप्टिमाइज़ेशन कठिन हो गया था। अंतर्दृष्टि: f(x) = 0 सीखना आसान है (residual कुछ नहीं है, बस इनपुट को पास करें) बजाय f(x) = x सीखने के (इनपुट को पूरी तरह से पुन: उत्पन्न करें)। Residual connections आइडेंटिटी फंक्शन को डिफ़ॉल्ट बनाते हैं, और प्रत्येक लेयर को केवल उपयोगी संशोधन सीखने की आवश्यकता है।

Transformers में

प्रत्येक Transformer लेयर दो residual connections लागू करता है: एक attention सब-लेयर के चारों ओर (x + attention(x)) और एक feedforward सब-लेयर के चारों ओर (x + ffn(x))। इसका मतलब है कि लेयर 1 के इनपुट का लेयर 32 के आउटपुट तक एक सीधा योगात्मक पथ है — यह हर चरण में वापस जोड़ा जाता है। यह "residual stream" mechanistic interpretability में एक केंद्रीय अवधारणा है: प्रत्येक लेयर इस साझा स्ट्रीम से पढ़ता और लिखता है, और अंतिम आउटपुट सभी लेयर्स के योगदान का योग है।

Residual Stream दृष्टिकोण

एक Transformer को एक residual stream के रूप में सोचना जिसमें लेयर्स पढ़ते और लिखते हैं (एक क्रमिक पाइपलाइन के बजाय) आर्किटेक्चर की आपकी समझ को बदल देता है। Attention लेयर्स स्ट्रीम में स्थितियों के बीच सूचना ले जाते हैं। FFN लेयर्स प्रत्येक स्थिति पर सूचना को रूपांतरित करते हैं। अंतिम आउटपुट मूल इनपुट प्लस सभी लेयर्स से सभी संशोधन है। यह दृष्टिकोण बताता है कि आप अक्सर सीमित प्रभाव के साथ लेयर्स को हटा क्यों सकते हैं — residual stream सूचना को संरक्षित करता है भले ही व्यक्तिगत लेयर्स को छोड़ दिया जाए।

संबंधित अवधारणाएँ

← सभी शब्द
← Resemble AI Retrieval →