सुपरपोज़िशन (Superposition): परिभाषा और अर्थ — AI विकी

वह घटना जिसमें न्यूरल नेटवर्क अपने न्यूरॉनों की संख्या से कहीं अधिक विशेषताएँ (अवधारणाएँ, पैटर्न) एन्कोड करते हैं, विशेषताओं को व्यक्तिगत न्यूरॉनों को समर्पित करने के बजाय एक्टिवेशन स्पेस में दिशाओं के रूप में प्रदर्शित करके। एक अकेला न्यूरॉन एक साथ दर्जनों विशेषताओं को एन्कोड करने में भाग लेता है, और प्रत्येक विशेषता कई न्यूरॉनों में वितरित होती है।

यह क्यों मायने रखता है

सुपरपोज़िशन ही कारण है कि न्यूरल नेटवर्क की व्याख्या करना कठिन है और mechanistic interpretability चुनौतीपूर्ण है। अगर प्रत्येक न्यूरॉन एक अवधारणा का प्रतिनिधित्व करता (जैसे "कुत्तों की अवधारणा"), तो व्याख्या सीधी होती। इसके बजाय, अवधारणाएँ न्यूरॉनों में ओवरलैपिंग पैटर्न में फैली होती हैं। सुपरपोज़िशन को समझना यह समझने की कुंजी है कि न्यूरल नेटवर्क जानकारी को कैसे संकुचित करते हैं और वे कभी-कभी अप्रत्याशित रूप से व्यवहार क्यों करते हैं।

गहन अध्ययन

मुख्य अंतर्दृष्टि: प्रति परत 4096 न्यूरॉन वाला मॉडल पूर्ण 4096-आयामी स्पेस का उपयोग करके 4096 से कहीं अधिक विशेषताओं का प्रतिनिधित्व कर सकता है। प्रत्येक विशेषता इस स्पेस में एक दिशा (एक वेक्टर) है, और विशेषताएँ ओवरलैप कर सकती हैं जब तक वे बहुत समान न हों। यह गणितीय रूप से compressed sensing के अनुरूप है — आप आयामों से अधिक सिग्नल स्टोर कर सकते हैं यदि सिग्नल विरल हैं (किसी भी समय केवल कुछ सक्रिय हैं)।

मॉडल ऐसा क्यों करते हैं

मॉडल सुपरपोज़िशन सीखते हैं क्योंकि दुनिया में किसी भी व्यावहारिक मॉडल के आयामों से अधिक विशेषताएँ हैं। एक मॉडल को हज़ारों अवधारणाओं (रंग, भावनाएँ, वाक्य-विन्यास नियम, तथ्यात्मक ज्ञान, कोड पैटर्न) का प्रतिनिधित्व करने की आवश्यकता है, लेकिन प्रति परत केवल 4096 आयाम हो सकते हैं। सुपरपोज़िशन इसे उपलब्ध स्पेस में सभी विशेषताओं को पैक करने देता है, कुछ हस्तक्षेप की कीमत पर जब कई ओवरलैपिंग विशेषताएँ एक साथ सक्रिय होती हैं।

सुरक्षा के लिए निहितार्थ

सुपरपोज़िशन के AI सुरक्षा के लिए सीधे निहितार्थ हैं। यदि "छल" विशेषता अन्य सौम्य विशेषताओं के साथ अधिआरोपित है, तो इसका पता लगाना और हटाना कठिन है। Sparse autoencoders (mechanistic interpretability में उपयोग किए जाने वाले) व्यक्तिगत विशेषता दिशाओं को खोजकर सुपरपोज़िशन को सुलझाने का प्रयास करते हैं, लेकिन बड़े मॉडल में विशेषताओं की संख्या विशाल हो सकती है — Anthropic ने Claude में लाखों व्याख्या योग्य विशेषताओं की पहचान की। सुपरपोज़िशन को समझना और नियंत्रित करना AI सिस्टम को विश्वसनीय रूप से सुरक्षित बनाने के लिए एक केंद्रीय चुनौती है।

सुपरपोज़िशन (Superposition)

यह क्यों मायने रखता है

गहन अध्ययन

मॉडल ऐसा क्यों करते हैं

सुरक्षा के लिए निहितार्थ

संबंधित अवधारणाएँ