Two Minute Papers का Gemma 4 पर विश्लेषण: 'मानवता को एक उपहार', हाइब्रिड attention, और पहली पीढ़ी के Nintendo Switch पर चलता 2B मॉडल

Two Minute Papers के Dr. Károly Zsolnai-Fehér ने Google DeepMind के Gemma 4 रिलीज़ पर एक व्याख्या प्रकाशित की, और यदि आप 2026 के लिए मॉडल-चुनाव का निर्णय ले रहे हैं तो इसे देखना मूल्यवान है। चैनल का काम है शोध-घोषणाओं को लेना, कुछ सप्ताह तक समुदाय के व्यावहारिक अनुभव को पढ़ना, और फिर फ़ैसला देना, न कि लॉन्च के दिन hype पोस्ट करना। यहाँ का फ़ैसला आरक्षण-सहित अनुकूल है। Gemma 4 ने पहले सप्ताह में 1 करोड़ डाउनलोड को छुआ, सबसे छोटा वेरिएंट फ़ोन पर ऑफ़लाइन चलता है (और, इस वीडियो में प्रसिद्ध रूप से, पहली पीढ़ी के Nintendo Switch पर), और Apache 2.0 लाइसेंस अंततः उन वाणिज्यिक हथकड़ियों को हटा देता है जो पुरानी Gemma लाइसेंस लगाती थी। मैंने कल लाइसेंस-परिवर्तन और multimodal-agentic फ़्रंटियर-स्थिति पर लिखा था; यह वीडियो वह तकनीकी आर्किटेक्चर भर देता है जिसके लिए मेरे पास जगह नहीं थी।

चार आर्किटेक्चरल विवरण निकालने योग्य हैं। पहला, प्रशिक्षण-डेटा क्यूरेट किया गया है, scrape नहीं, जिसे Károly कहते हैं "सब कुछ अन्दर मत आने दो, अपने सूचना-आहार को क्यूरेट करो"; यह मॉडलों व लोगों दोनों के लिए अच्छी सलाह है। दूसरा, हाइब्रिड attention: एक स्थानीय sliding-window और एक global-attention pass, वही मॉडल वाक्य-स्तर के विवरणों पर ज़ूम करते हुए भी पुस्तक-स्तर के संदर्भ को ट्रैक करता है। तीसरा, मूल छवि-समझ जो landscape अनुपात को वर्ग में नहीं दबाती (जो Gemma 3 करता था और जो चुपचाप छवि-benchmarks को तोड़ता था)। चौथा, परतों के बीच साझा KV-cache, ताकि बाद की परतें पहले की परतों द्वारा पहले से गणना की गई memory उधार लें, न कि शून्य से पुनर्गणना करें। व्यक्तिगत रूप से ये वृद्धिशील हैं। एक साथ वे समझाते हैं कि 31B dense मॉडल कैसे कुछ 10 गुना बड़े MoE प्रतिस्पर्धियों को उन benchmarks पर हरा देता है जहाँ dense मॉडलों ने वर्षों पहले हार मान ली थी।

"मानवता को उपहार" की फ़्रेमिंग ईमानदार है और इसे उसके चेहरे-मूल्य पर लेना चाहिए। Károly एक विशिष्ट तुलना के साथ समाप्त करते हैं: Gemma 4 उसी समय उतर रहा है जब एक फ़्रंटियर मॉडल "कुछ चुनिंदा ग्राहकों के लिए लॉक कर दिया गया है"। यह कल मैंने जिस गेट-बंद पहुँच पैटर्न को कवर किया था उसका सीधा संदर्भ है (Anthropic Mythos, OpenAI GPT-Rosalind, केवल cybersecurity और pharma साझेदारों तक जा रहे हैं)। वीडियो का भावनात्मक तर्क यह है कि ओपन-वेट्स Gemma 4 उस lockdown का प्रतिसंतुलन है, एक चीज़ जिसे "वे" आपसे नहीं ले सकते। व्यावहारिक वास्तविकता अधिक सूक्ष्म है। ओपन वेट्स जो फ़ोन पर चलते हैं, Trusted Access दरवाज़े के पीछे की फ़्रंटियर क्षमता से प्रतिस्पर्धा नहीं करते। वे सामान्य-उद्देश्य API पहुँच (GPT-5.4, Claude Opus 4.7) के साथ उन कार्यभारों के लिए प्रतिस्पर्धा करते हैं जहाँ 13B या 31B मॉडल पर्याप्त है। अधिकांश निर्माताओं के लिए, अधिकांश समय, यह पर्याप्त है।

यदि आप अपने stack में Gemma 4 जोड़ने पर विचार कर रहे हैं, तो यह वीडियो देखिए और फिर 26B MoE और 31B dense वेरिएंट को अपने वास्तविक कार्यभार के विरुद्ध परखिए। Károly की ईमानदार चेतावनियाँ उपयोगी हिस्सा हैं। मॉडल के पास जीवंत डेटाबेस नहीं है, इसलिए यह agent harness के बिना आत्मविश्वास से ग़लत होगा; जटिल खुले कार्यों के साथ संघर्ष करता है; बारीक दृश्य विवरणों (घास के तिनके, दूर की बाड़ें) पर अभी भी कमज़ोर नज़रें हैं। यह benchmark वास्तविकता से मेल खाता है। ग़ैर-कोडिंग, ग़ैर-फ़्रंटियर-तर्क कार्यभारों (सारांशीकरण, अनुवाद, नियमित agentic टूल उपयोग, on-device inference) के लिए, Gemma 4 अब डिफ़ॉल्ट खुली baseline है जिसके विरुद्ध सब कुछ मापने लायक़ है। Apache 2.0 लाइसेंस इसे procurement-अनुकूल इस तरह बनाता है कि Gemma 3 कभी नहीं था। और यदि आपको किसी संशयी stakeholder को देने के लिए एक प्रेरक आंतरिक व्याख्या की आवश्यकता थी, तो Two Minute Papers वह काम आठ मिनट में करता है।

Two Minute Papers का Gemma 4 पर विश्लेषण: 'मानवता को एक उपहार', हाइब्रिड attention, और पहली पीढ़ी के Nintendo Switch पर चलता 2B मॉडल

और समाचार