DeepSeek V4-Pro उतरा 1.6T पैरामीटर्स के साथ MIT-लाइसेंस्ड वेट्स, 80.6% SWE-bench Verified, और Claude Opus 4.6 से 7x सस्ता आउटपुट

DeepSeek ने 24 अप्रैल को V4-Pro और V4-Flash जारी किए, दोनों MIT लाइसेंस के तहत ओपन वेट्स के रूप में शिप किए गए और तुरंत DeepSeek API के माध्यम से उपलब्ध। हेडलाइन नंबर इतने तीखे हैं कि वे इस सप्ताह किसी भी डेवलपर के मूल्यांकन ढेर में हैं। V4-Pro 1.6 ट्रिलियन कुल पैरामीटर्स है जिसमें प्रति टोकन 49 बिलियन सक्रिय हैं, एक MoE कॉन्फ़िगरेशन लगभग 3% सक्रियण घनत्व के साथ जो इसे अपनी क्षमता सीमा के सापेक्ष सेवा करने के लिए सस्ता बनाता है। V4-Flash 284B/13B पर छोटा संस्करण है। दोनों मॉडल 384K-टोकन अधिकतम आउटपुट के साथ 1 मिलियन टोकन संदर्भ विंडो का समर्थन करते हैं, दोनों MIT के तहत शिप करते हैं, और दोनों Hugging Face पर deepseek-ai पर सूचीबद्ध हैं। V4-Pro पर SWE-bench Verified स्कोर 80.6% है — Claude Opus 4.6 के 0.2 अंकों के भीतर — और API मूल्य लगभग $1.74 इनपुट / $3.48 आउटपुट प्रति मिलियन टोकन है, जिसे The Rundown की कवरेज प्रति आउटपुट टोकन बंद फ्रंटियर विकल्पों से लगभग 7x सस्ता बताती है।

बेंचमार्क संख्याओं से ज़्यादा ध्यान आकर्षित करने योग्य आर्किटेक्चर विवरण नया हाइब्रिड अटेंशन तंत्र है। V4 जिसे DeepSeek Compressed Sparse Attention (CSA) और Heavily Compressed Attention (HCA) कहता है उसे 1M संदर्भ को कुशलतापूर्वक संभालने के लिए जोड़ता है। रिपोर्ट किया गया प्रभाव: 1M टोकन पर, V4-Pro DeepSeek V3.2 की तुलना में समान संदर्भ लंबाई पर प्रति टोकन इन्फ़रेंस FLOPs के केवल 27% और KV cache के 10% का उपयोग करता है। यह MMLU के एक अंक से कहीं बड़ा संरचनात्मक सुधार है। KV cache आकार किसी भी उचित समवर्तीता पर लंबे संदर्भ इन्फ़रेंस की सेवा के लिए बाधक बाधा है, और 10x कमी 1M संदर्भ को मार्केटिंग बुलेट के रूप में पेश करने और इसे वास्तविक उत्पादन विकल्प के रूप में पेश करने के बीच का अंतर है। अन्य प्रयोगशालाएँ इसे जल्दी कॉपी करेंगी।

डेवलपर्स के लिए, व्यावहारिक बदलाव कोडिंग वर्कलोड पर मूल्य-क्षमता सीमा में है। SWE-bench Verified 80.6% पर अनिवार्य रूप से Claude Opus 4.6 के 80.8% के शोर के भीतर है, और एक-सातवें आउटपुट लागत पर यह किसी भी उच्च-मात्रा एजेंट उत्पाद के लिए गणना बदलता है जहाँ उपयोगकर्ता को निरपेक्ष शीर्ष संख्या की आवश्यकता नहीं है। प्रति कार्य दर्जनों इन्फ़रेंस चरण चलाने वाले कोडिंग एजेंट — Cursor-शैली रीफ़ैक्टर एजेंट, स्वायत्त PR-समीक्षा सिस्टम, स्वचालित माइग्रेशन उपकरण — बंद फ्रंटियर मॉडलों पर प्रति-टोकन लागत द्वारा बजट-बाधित थे। V4-Pro के साथ वही वर्कलोड एक मूल्य बिंदु पर चलता है जो कमोडिटी कंप्यूट के अधिक क़रीब है। निष्कर्ष यह है कि बंद-फ्रंटियर प्रदाता समान गुणक चार्ज करना जारी नहीं रख सकते; उत्पादन-ग्रेड एजेंट इन्फ़रेंस पर मंज़िल अभी बदली है।

रणनीतिक संदर्भ भी नाम देने योग्य है। DeepSeek ने V4 के साथ Huawei Ascend समर्थन शिप किया, जिसका अर्थ है कि पूरा प्रशिक्षण-और-सेवा स्टैक चीनी-घरेलू सिलिकॉन पर चलता है, केवल प्रशिक्षित मॉडल नहीं। यह V4 को अब तक का सबसे मज़बूत एकल तर्क बनाता है कि US निर्यात नियंत्रणों ने चीनी AI निर्माण को आकार दिया है, रोका नहीं: Anthropic और OpenAI से बंद फ्रंटियर मॉडलों और DeepSeek से ओपन-वेट्स विकल्पों के बीच का अंतर अब इतना छोटा है कि वर्कलोड दर वर्कलोड, चुनाव कीमत और लाइसेंसिंग पर निर्भर करता है, क्षमता सीमाओं पर नहीं। ईमानदार चेतावनियाँ: DeepSeek की अपनी मूल्यांकन पद्धति को स्वतंत्र रन के विरुद्ध जाँचा जाना चाहिए, AA का Intelligence Index V4-Pro को शीर्ष के बजाय चौथे tier में रखता है, और इस चक्र के इस बिंदु पर बेंचमार्क स्कोर eval सेट के साथ प्रशिक्षण डेटा ओवरलैप से बढ़ती दर से दूषित हो रहे हैं। हेडलाइन संख्याओं पर उत्पाद रोडमैप दांव लगाने से पहले अपने स्वयं के आंतरिक eval चलाएँ। पर ओपन-वेट्स फ्रंटियर ने अभी एक और कदम उस ओर बढ़ाया है जहाँ बंद-वेट्स फ्रंटियर है, और इसका इस बात के लिए वास्तविक निहितार्थ है कि डेवलपर पारिस्थितिकी तंत्र आगे किन मॉडलों पर मानकीकृत होगा।

DeepSeek V4-Pro उतरा 1.6T पैरामीटर्स के साथ MIT-लाइसेंस्ड वेट्स, 80.6% SWE-bench Verified, और Claude Opus 4.6 से 7x सस्ता आउटपुट

और समाचार