मुख्य अंतर्दृष्टि: प्रति परत 4096 न्यूरॉन वाला मॉडल पूर्ण 4096-आयामी स्पेस का उपयोग करके 4096 से कहीं अधिक विशेषताओं का प्रतिनिधित्व कर सकता है। प्रत्येक विशेषता इस स्पेस में एक दिशा (एक वेक्टर) है, और विशेषताएँ ओवरलैप कर सकती हैं जब तक वे बहुत समान न हों। यह गणितीय रूप से compressed sensing के अनुरूप है — आप आयामों से अधिक सिग्नल स्टोर कर सकते हैं यदि सिग्नल विरल हैं (किसी भी समय केवल कुछ सक्रिय हैं)।
मॉडल सुपरपोज़िशन सीखते हैं क्योंकि दुनिया में किसी भी व्यावहारिक मॉडल के आयामों से अधिक विशेषताएँ हैं। एक मॉडल को हज़ारों अवधारणाओं (रंग, भावनाएँ, वाक्य-विन्यास नियम, तथ्यात्मक ज्ञान, कोड पैटर्न) का प्रतिनिधित्व करने की आवश्यकता है, लेकिन प्रति परत केवल 4096 आयाम हो सकते हैं। सुपरपोज़िशन इसे उपलब्ध स्पेस में सभी विशेषताओं को पैक करने देता है, कुछ हस्तक्षेप की कीमत पर जब कई ओवरलैपिंग विशेषताएँ एक साथ सक्रिय होती हैं।
सुपरपोज़िशन के AI सुरक्षा के लिए सीधे निहितार्थ हैं। यदि "छल" विशेषता अन्य सौम्य विशेषताओं के साथ अधिआरोपित है, तो इसका पता लगाना और हटाना कठिन है। Sparse autoencoders (mechanistic interpretability में उपयोग किए जाने वाले) व्यक्तिगत विशेषता दिशाओं को खोजकर सुपरपोज़िशन को सुलझाने का प्रयास करते हैं, लेकिन बड़े मॉडल में विशेषताओं की संख्या विशाल हो सकती है — Anthropic ने Claude में लाखों व्याख्या योग्य विशेषताओं की पहचान की। सुपरपोज़िशन को समझना और नियंत्रित करना AI सिस्टम को विश्वसनीय रूप से सुरक्षित बनाने के लिए एक केंद्रीय चुनौती है।