Qwen ने जारी किया Qwen-Scope: 7 Qwen वैरिएंट्स के लिए 14 SAE सूट्स

Qwen टीम ने Qwen-Scope जारी किया है, एक ओपन-सोर्स स्पार्स ऑटोएन्कोडर (SAE) सूट जो सात Qwen3 मॉडल वैरिएंट्स के एक्टिवेशन को व्याख्या-योग्य फ़ीचर्स में विघटित करता है। कुल चौदह SAE समूह: 1.7B से 27B तक के dense बैकबोन (Qwen3-1.7B, Qwen3-8B, Qwen3.5-2B, Qwen3.5-9B, Qwen3.5-27B) और Qwen3-30B-A3B तथा Qwen3.5-35B-A3B MoE मॉडल। वेट्स HuggingFace पर भेजे गए। यह व्याख्या-योग्यता टूलिंग है जो उत्पाद के रूप में आई है, पेपर के परिशिष्ट के रूप में नहीं।

ट्रेनिंग सेटअप top-k स्पार्सिटी (k = 50 या 100) का उपयोग करता है, dense बैकबोन के लिए डिक्शनरी विस्तार hidden size के 16× पर और मानक MoE कॉन्फ़िगरेशन के लिए 32K-चौड़ाई वाले SAE, चौड़े MoE वैरिएंट्स के लिए 128K चौड़ाई (64× विस्तार) तक स्केल। Qwen3.5-27B SAE को instruct वैरिएंट पर ट्रेन किया गया; बाक़ी बेस चेकपॉइंट्स को निशाना बनाते हैं। दर्ज़ उपयोग चार बकेट्स में फैले हैं: वेट अपडेट के बिना इनफ़रेंस-टाइम फ़ीचर स्टीयरिंग, मूल्यांकन विश्लेषण (फ़ीचर ओवरलैप के ज़रिए बेंचमार्क रिडंडेंसी पहचानना), डेटा-केंद्रित वर्कफ़्लो जैसे विषाक्तता वर्गीकरण और सुरक्षा डेटा संश्लेषण, और SFT तथा RL के लिए पोस्ट-ट्रेनिंग सिग्नल जनरेशन। यह रिलीज़ SAE बुनियादी ढाँचे को डेवलपर-टूल फ़्रेमिंग में लाता है — जिसे Goodfire के Ember और Anthropic के पिछले SAE काम ने शोध के तौर पर साबित किया, Qwen उसे Qwen इकोसिस्टम के लिए डिफ़ॉल्ट टूलिंग के रूप में डिलीवर कर रहा है।

ओपन-वेट इकोसिस्टम के लिए यह एक और मॉडल रिलीज़ से ज़्यादा मायने रखता है। Qwen डाउनस्ट्रीम फ़ाइन-ट्यूनिंग के लिए प्रमुख ओपन-वेट परिवार है; परिवार के साथ प्रोडक्शन-ग्रेड SAE बंडल करना फ़ीचर-स्तरीय हस्तक्षेप को शोध परियोजना के बजाय एक डिफ़ॉल्ट क्षमता बनाता है। इनफ़रेंस पर फ़ीचर्स को स्टीयर करना पुनः प्रशिक्षण के बिना मॉडल व्यवहार को कस्टमाइज़ करने का सबसे साफ़ रास्ता है, और SAE फ़ीचर्स को रिफ़्यूज़ल सीमाओं से बाँधना सुरक्षा ट्यूनिंग के लिए पारदर्शी सतह देता है जो वर्तमान RLHF स्टैक अपारदर्शी बनाते हैं। लीवरेज बदल जाता है: अगर आप वह फ़ीचर खोज सकते हैं जो किसी व्यवहार को नियंत्रित करता है, तो आप उसे प्रॉम्प्ट्स से लड़ना बंद कर देते हैं।

अगर आप अलाइनमेंट, eval डिज़ाइन, या किसी Qwen मॉडल के डोमेन-विशिष्ट अनुकूलन पर काम करते हैं, HuggingFace से SAE उतारें और मैपिंग शुरू करें। अपने eval सेट पर फ़ीचर एक्टिवेशन देखें ताकि रिडंडेंसी और संदूषण मिले। सुरक्षा टीमों के लिए, इनफ़रेंस-स्टीयरिंग पथ अब असली टूलचेन के साथ उपयोग करने योग्य है। शोध के लिए, 128K चौड़ाई पर MoE SAE सबसे दिलचस्प कलाकृति है — फ़्रंटियर-स्केल MoE पर इस विस्तार अनुपात पर कोई दूसरा खुला रिलीज़ नहीं है।

Qwen ने जारी किया Qwen-Scope: 7 Qwen वैरिएंट्स के लिए 14 SAE सूट्स

और समाचार