Sparse Autoencoder: परिभाषा और अर्थ — AI विकी

एक न्यूरल नेटवर्क जिसे एक मॉडल के आंतरिक एक्टिवेशन को sparsity बाधा के साथ एक bottleneck के माध्यम से पुनर्निर्मित करने के लिए प्रशिक्षित किया जाता है — एक समय में केवल कुछ features सक्रिय हो सकते हैं। सीखे गए features अक्सर व्याख्या योग्य अवधारणाओं (विशिष्ट विषय, भाषाई पैटर्न, तर्क रणनीतियाँ) से मेल खाते हैं, जो SAEs को बड़े भाषा मॉडलों के अंदर superposed features को अलग करने का प्राथमिक उपकरण बनाता है।

यह क्यों मायने रखता है

Sparse autoencoders mechanistic interpretability की सूक्ष्मदर्शी हैं। LLMs superposition के माध्यम से प्रत्येक लेयर में हज़ारों features को पैक करते हैं, जिससे व्यक्तिगत neurons अव्याख्यायोग्य हो जाते हैं। SAEs इन superposed प्रतिनिधित्वों को अलग-अलग, व्याख्या योग्य features में विघटित करते हैं। Anthropic ने Claude में लाखों features की पहचान करने के लिए SAEs का उपयोग किया, जिसमें धोखाधड़ी, विशिष्ट अवधारणाओं और सुरक्षा-संबंधी व्यवहारों के features शामिल थे।

गहन अध्ययन

आर्किटेक्चर: SAE एक मॉडल के एक्टिवेशन वेक्टर (आयाम d_model, जैसे, 4096) लेता है और इसे एक बहुत बड़े sparse प्रतिनिधित्व (जैसे, 64K features, जिसमें से किसी भी दिए गए इनपुट के लिए केवल ~100 सक्रिय होते हैं) में एन्कोड करता है। फिर यह d_model में वापस डीकोड करता है और reconstruction error को कम करने के लिए प्रशिक्षित किया जाता है। sparsity बाधा (hidden लेयर पर L1 दंड) SAE को प्रति इनपुट केवल कुछ features का उपयोग करने के लिए मजबूर करती है, यह सुनिश्चित करती है कि प्रत्येक feature विशिष्ट हो न कि फैला हुआ।

SAEs क्या पाते हैं

LLM एक्टिवेशन पर प्रशिक्षित होने पर, SAEs व्याख्या योग्य features खोजते हैं: एक "Golden Gate Bridge" feature जो पुल के बारे में टेक्स्ट पर सक्रिय होता है, एक "Python code" feature, एक "French language" feature, एक "sycophantic agreement" feature, और इसी तरह। ये features व्यक्तिगत neurons की तुलना में अधिक व्याख्या योग्य हैं क्योंकि sparsity बाधा उन अतिव्यापी अवधारणाओं को अलग करती है जिन्हें neurons superposition में दर्शाते हैं। Anthropic के शोध ने ठोस (विशिष्ट इकाइयां) से लेकर अमूर्त (धोखाधड़ी, अनिश्चितता) तक के features पाए।

व्याख्या से परे अनुप्रयोग

SAE features का उपयोग समझने से अधिक के लिए किया जा सकता है: एक feature को शून्य पर क्लैंप करने से संबंधित व्यवहार दबाता है (एक "deception" feature को निष्क्रिय करना), जबकि एक feature को बढ़ाने से यह मजबूत होता है। यह बिना पुन: प्रशिक्षण के सूक्ष्म व्यवहारिक नियंत्रण की संभावना खोलता है। हालांकि, तकनीक अभी भी प्रयोगात्मक है — feature इंटरैक्शन जटिल हैं, और एक feature को संशोधित करने से अवशिष्ट superposition के कारण दूसरों पर अनपेक्षित प्रभाव पड़ सकते हैं।

Sparse Autoencoder

यह क्यों मायने रखता है

गहन अध्ययन

SAEs क्या पाते हैं

व्याख्या से परे अनुप्रयोग

संबंधित अवधारणाएँ