आर्किटेक्चर: SAE एक मॉडल के एक्टिवेशन वेक्टर (आयाम d_model, जैसे, 4096) लेता है और इसे एक बहुत बड़े sparse प्रतिनिधित्व (जैसे, 64K features, जिसमें से किसी भी दिए गए इनपुट के लिए केवल ~100 सक्रिय होते हैं) में एन्कोड करता है। फिर यह d_model में वापस डीकोड करता है और reconstruction error को कम करने के लिए प्रशिक्षित किया जाता है। sparsity बाधा (hidden लेयर पर L1 दंड) SAE को प्रति इनपुट केवल कुछ features का उपयोग करने के लिए मजबूर करती है, यह सुनिश्चित करती है कि प्रत्येक feature विशिष्ट हो न कि फैला हुआ।
LLM एक्टिवेशन पर प्रशिक्षित होने पर, SAEs व्याख्या योग्य features खोजते हैं: एक "Golden Gate Bridge" feature जो पुल के बारे में टेक्स्ट पर सक्रिय होता है, एक "Python code" feature, एक "French language" feature, एक "sycophantic agreement" feature, और इसी तरह। ये features व्यक्तिगत neurons की तुलना में अधिक व्याख्या योग्य हैं क्योंकि sparsity बाधा उन अतिव्यापी अवधारणाओं को अलग करती है जिन्हें neurons superposition में दर्शाते हैं। Anthropic के शोध ने ठोस (विशिष्ट इकाइयां) से लेकर अमूर्त (धोखाधड़ी, अनिश्चितता) तक के features पाए।
SAE features का उपयोग समझने से अधिक के लिए किया जा सकता है: एक feature को शून्य पर क्लैंप करने से संबंधित व्यवहार दबाता है (एक "deception" feature को निष्क्रिय करना), जबकि एक feature को बढ़ाने से यह मजबूत होता है। यह बिना पुन: प्रशिक्षण के सूक्ष्म व्यवहारिक नियंत्रण की संभावना खोलता है। हालांकि, तकनीक अभी भी प्रयोगात्मक है — feature इंटरैक्शन जटिल हैं, और एक feature को संशोधित करने से अवशिष्ट superposition के कारण दूसरों पर अनपेक्षित प्रभाव पड़ सकते हैं।