Qwen3.6-35B-A3B Gemma 4 के अगले ही दिन Apache 2.0 के तहत आया: sparse MoE, 35B में से केवल 3B सक्रिय, नेटिव 262K कॉन्टेक्स्ट

Alibaba की Qwen टीम ने 16 अप्रैल को Qwen3.6-35B-A3B जारी किया, Gemma 4 के लॉन्च के एक दिन बाद, और दोनों रिलीज़ मिलकर ओपन-वेट्स की बातचीत को पुनर्गठित करते हैं। Qwen3.6 एक sparse mixture-of-experts मॉडल है, जिसमें कुल 35 अरब पैरामीटर हैं लेकिन हर forward pass में केवल 3 अरब सक्रिय होते हैं, जो Hugging Face और ModelScope पर Apache 2.0 लाइसेंस के तहत प्रकाशित है। मॉडल को agentic कोडिंग, रिपॉजिटरी-रीज़निंग, टूल-उपयोग, लम्बे-कॉन्टेक्स्ट के काम, और छवियाँ या वीडियो से जुड़े multimodal कार्यों के लिए स्थापित किया गया है। नेटिव कॉन्टेक्स्ट 262,144 tokens है, जिसमें YaRN एक्सटेंशन से कथित तौर पर लगभग 1 मिलियन तक पहुँचा जा सकता है। प्रारंभिक तीसरे-पक्ष की रिपोर्टें दावा करती हैं कि यह मॉडल कई benchmarks पर Gemma 4-31B को हराता है और बड़े dense मॉडलों के साथ local परिनियोजन के लिए प्रतिस्पर्धी है।

35B-कुल, 3B-सक्रिय आर्किटेक्चर दिलचस्प चुनाव है। प्रति forward pass 3 अरब सक्रिय पैरामीटरों के साथ, Qwen3.6 की inference-गणना आवश्यकताएँ एक dense 3B मॉडल के तुलनीय हैं, जबकि यह एक बहुत बड़े मॉडल की जानकारी और क्षमता उठाता है। यह MoE की सैद्धांतिक जीत है, एकल-GPU स्थानीय परिनियोजन के लिए ठोस रूप से रूप में: आपको पूरे 35B भार रखने के लिए लगभग पर्याप्त VRAM चाहिए, यानी हाई-एंड workstation का क्षेत्र, उपभोक्ता लैपटॉप नहीं, लेकिन प्रति-token गणना dense-3B के बराबर है, जो व्यावहारिक रूप से उपयोगी होने के लिए पर्याप्त तेज़ है। Apache 2.0 लाइसेंस उस वाणिज्यिक-उपयोग घर्षण को हटाता है जो पहले के Qwen लाइसेंसों ने लगाया था, और Qwen को ठीक उसी commercial-permissive tier में रखता है जहाँ Gemma 4 है। Multimodal समर्थन (छवियाँ और वीडियो) Gemma 4 की नेटिव multimodality से मेल खाता है। 262K नेटिव कॉन्टेक्स्ट और YaRN-विस्तारित 1M लम्बे-दस्तावेज़ कार्य के लिए फ़्रंटियर बंद मॉडलों के साथ प्रतिस्पर्धी हैं।

दो अलग-अलग labs से पन्द्रह दिनों में Apache 2.0 के तहत दो multimodal-agentic ओपन-वेट्स मॉडल, यह एक पैटर्न है, संयोग नहीं। Labs ने उस सटीक उत्पाद-रूप पर अभिसरण किया है जिसे एंटरप्राइज़ ख़रीदार माँगते आ रहे थे: commercially-permissive लाइसेंस, multimodal, agentic-तैयार, लम्बा कॉन्टेक्स्ट, मध्य-स्तर के बंद मॉडलों के ख़िलाफ़ प्रतिस्पर्धी benchmarks। ख़रीदारों ने काफ़ी ऊँचे स्वर में माँगा, और Alibaba और Google दोनों ने कुछ सप्ताहों के अंतराल में जवाब दिया। मध्य-स्तरीय बंद API व्यवसाय (volume परत, फ़्रंटियर नहीं) के लिए प्रतिस्पर्धी निहितार्थ यह है कि क्षमता + अनुमेय लाइसेंस + MoE दक्षता + Google की तरफ़ से ग़ैर-चीनी-मूल का विकल्प, अब एक वास्तविक procurement विकल्प बनाता है। फ़्रंटियर अभी भी बंद दरवाज़ों के पीछे है (GPT-5.4, Claude Opus 4.7, Gemini Pro, और gated Mythos एवं GPT-Rosalind tier), लेकिन volume परत को open weights खा रहा है, जितना अधिकांश स्थापित vendors ने एक साल पहले बजट किया था, उससे तेज़।

जिन टीमों के पास कोड-agent, रिपॉजिटरी-रीज़निंग या टूल-उपयोग कार्यभार है, उनके लिए Qwen3.6-35B-A3B को उस मॉडल के ख़िलाफ़ benchmark करना सार्थक है जिसे आप वर्तमान में 3B से 8B सक्रिय-पैरामीटर भाग के लिए उपयोग करते हैं। MoE आर्किटेक्चर विशेष रूप से तब मदद करती है जब आपके पास पूरे वज़न रखने के लिए VRAM बजट है लेकिन आप dense-3B inference latency चाहते हैं; यह batch कोड-जनरेशन और लम्बे-कॉन्टेक्स्ट reasoning के लिए एक उपयोगी tradeoff है। भू-राजनीतिक संवेदनशीलता वाली टीमों के लिए, Qwen-मूल की चिंता वास्तविक है और production उपयोग से पहले risk-और-compliance समीक्षा की ज़रूरत है, लाइसेंस की अनुमेयता चाहे जो भी हो; यह समीक्षा मॉडल की क्षमता-दावों से अलग और उसके अतिरिक्त है। सभी के लिए, संकेत यह है कि ओपन-वेट्स मध्य-स्तर अब कई विश्वसनीय Apache 2.0 विकल्पों के साथ एक असली procurement श्रेणी है, और 2026 में सही stack सम्भवतः लागत और क्षमता के आधार पर intent को रूट करता है: volume के लिए खुले Gemma-या-Qwen और कठिन 10 प्रतिशत कार्यों के लिए बंद फ़्रंटियर मॉडल जिन्हें वास्तव में उनकी आवश्यकता है।

Qwen3.6-35B-A3B Gemma 4 के अगले ही दिन Apache 2.0 के तहत आया: sparse MoE, 35B में से केवल 3B सक्रिय, नेटिव 262K कॉन्टेक्स्ट

और समाचार