DeepSeek: परिभाषा और अर्थ — AI विकी

चीनी एआई लैब जो 2025 के शुरुआती दिनों में DeepSeek-R1 के साथ उद्योग को हिलाकर रख देने वाला था, एक तर्क संबंधी मॉडल जो अग्रणी लैब्स के बराबर है लेकिन प्रशिक्षण लागत का एक छोटा हिस्सा में। क्वांटिटेटिव हेज फंड High-Flyer द्वारा समर्थित।

यह क्यों मायने रखता है

DeepSeek ने यह मान्यता तोड़ दी कि फ्रंटियर एआई के लिए फ्रंटियर बजट आवश्यक होता है। उनका कुशलता-प्रथम दृष्टिकोण — GPT-4 कक्षा और o1 कक्षा प्रदर्शन प्राप्त करना प्रशिक्षण लागत के एक छोटे हिस्से में — सम्पूर्ण उद्योग को स्केलिंग ही आवश्यक है के नारे को पुनर्विचार करने के लिए मजबूर कर दिया और आर्किटेक्चर नवाचार पर फोकस करने पर फिर से ध्यान केंद्रित करने के लिए बाध्य कर दिया। R1 के खुले वेट्स के साथ MIT लाइसेंस के तहत रिलीज ने तर्क प्रतिमानों तक पहुंच को लोकतंत्र कर दिया, जिस तरह कोई पश्चिमी प्रयोगशाला पहले नहीं कर सकी थी। और भू-राजनीति के दृष्टिकोण से, DeepSeek ने दिखाया कि निर्यात नियंत्रण ही एआई क्षमता को नियंत्रित नहीं कर सकते हैं, जो तकनीकी नीति, निवेश और एआई में वैश्विक शक्ति संतुलन के लिए गहरे अंतर्गत अर्थ वाली एक अभिज्ञता है।

गहन अध्ययन

DeepSeek की उत्पत्ति की कहानी किसी भी अन्य प्रमुख AI लैब के विपरीत है। कंपनी की स्थापना 2023 में Liang Wenfeng द्वारा स्थापित Hangzhou, चीन में स्थित एक quantitative hedge fund, High-Flyer Capital Management, की एक सहायक कंपनी के रूप में हुई थी। High-Flyer 2016 से trading के लिए अपना खुद का AI बुनियादी ढाँचा बना रहा था और एक substantial GPU cluster जमा कर चुका था — कथित तौर पर लगभग 10,000 NVIDIA A100 chips — इससे पहले कि अक्टूबर 2022 में अमेरिकी निर्यात नियंत्रणों ने सबसे उन्नत AI हार्डवेयर तक चीन की पहुँच काट दी। Liang, जो Zhejiang विश्वविद्यालय से electronic information engineering में डिग्री रखते हैं, ने उस बुनियादी ढाँचे को सामान्य-उद्देश्य AI शोध की ओर pivot करने का निर्णय लिया। venture capital जुटाने और सेलिब्रिटी शोधकर्ताओं को नियुक्त करने वाले विशिष्ट startup प्रक्षेपवक्र के विपरीत, DeepSeek पूरी तरह से High-Flyer द्वारा स्व-वित्त पोषित था, बहुत कम interviews दिए, और ऐसे papers प्रकाशित किए जो खुद बोलते थे। टीम युवा थी — बड़े पैमाने पर शीर्ष चीनी विश्वविद्यालयों से ली गई थी — और न्यूनतम सार्वजनिक प्रोफ़ाइल के साथ संचालित होती थी।

तकनीकी सफलताएँ

DeepSeek के शुरुआती रिलीज़ ठोस थे लेकिन प्रमुख सुर्खियाँ नहीं बने। DeepSeek-V1 और DeepSeek Coder मॉडलों ने सीमा को चुनौती दिए बिना क्षमता दिखाई। यह मई 2024 में DeepSeek-V2 के साथ नाटकीय रूप से बदल गया, जिसने Multi-Head Latent Attention (MLA) पेश किया — एक तकनीक जिसने inference के दौरान key-value cache को compress किया, मेमोरी आवश्यकताओं और लागत को नाटकीय रूप से कम किया। मॉडल ने 236 अरब कुल parameters के साथ Mixture of Experts आर्किटेक्चर का उपयोग किया लेकिन प्रति token केवल 21 अरब सक्रिय किए, जिससे यह शक्तिशाली और चलाने में सस्ता दोनों हो गया। DeepSeek ने अपने API की क़ीमत GPT-4 की लागत के लगभग 1/30वें हिस्से पर रखी, जिसने उद्योग में एक झटका भेजा। फिर दिसंबर 2024 में DeepSeek-V3 आया, जिसे टीम ने दावा किया कि लगभग $5.5 मिलियन के compute लागत में प्रशिक्षित किया गया था — एक आँकड़ा जो, यदि सटीक है, तो पश्चिमी लैब्स ने तुलनीय मॉडलों पर खर्च किए गए परिमाण के एक क्रम से कम था। V3 ने FP8 mixed-precision प्रशिक्षण, एक multi-token भविष्यवाणी उद्देश्य, और अपनी MoE layers के लिए सहायक-loss-मुक्त load balancing का उपयोग किया, प्रत्येक प्रशिक्षण दक्षता में एक सार्थक नवाचार।

R1 और जनवरी 2025 का झटका

DeepSeek-R1, 20 जनवरी 2025 को रिलीज़ हुआ, वह क्षण था जब व्यापक दुनिया ने ध्यान दिया। R1 OpenAI के o1 की शैली में एक reasoning मॉडल था — यह जवाब देने से पहले जटिल समस्याओं के माध्यम से चरणबद्ध रूप से "सोच" सकता था — और इसने math, coding और विज्ञान बेंचमार्कों पर o1 के प्रदर्शन से मेल खाया या उसे पार किया। मॉडल को MIT लाइसेंस के तहत ओपन weights के रूप में जारी किया गया था। प्रभाव तत्काल और नाटकीय था। 27 जनवरी को, जिस दिन बाज़ारों ने पूरी तरह से निहितार्थ को संसाधित किया, NVIDIA का stock एक एकल session में लगभग 17% गिर गया — उस समय अमेरिकी इतिहास में सबसे बड़ा एकल-दिन बाज़ार पूँजी नुकसान — क्योंकि निवेशकों ने पुनर्गणना की कि क्या यह धारणा कि AI प्रगति के लिए हमेशा बढ़ते GPU खर्च की आवश्यकता है, अभी भी टिकती है। "DeepSeek झटका" एक भू-राजनीतिक घटना बन गया: यदि एक चीनी लैब नवीनतम हार्डवेयर से कटे होने के बावजूद फ्रंटियर अमेरिकी मॉडलों से मेल खा सकती है, तो इसने निर्यात नियंत्रणों की प्रभावशीलता के बारे में क्या कहा? और यदि प्रशिक्षण लागत गिर रही थी, तो महंगे AI बुनियादी ढाँचे को बेचने वाली कंपनियों के व्यावसायिक मॉडलों का क्या हुआ?

उन्होंने यह कैसे किया

DeepSeek की दक्षता के पीछे की तकनीकी कहानी वास्तव में दिलचस्प है और एक एकल चाल तक कम नहीं होती। टीम ने architectural नवाचारों (MLA, fine-grained experts के साथ DeepSeekMoE), प्रशिक्षण तकनीकों (केवल inference के बजाय pre-training की शुरुआत से FP8, multi-token भविष्यवाणी, सावधानी से ट्यून किए गए learning rate schedules), और बुनियादी ढाँचा इंजीनियरिंग (custom kernels, आक्रामक pipeline parallelism) का आक्रामक उपयोग किया। R1 के लिए विशेष रूप से, उन्होंने एक नया reinforcement learning दृष्टिकोण उपयोग किया: RLHF जैसे महंगे मानव वरीयता डेटा पर निर्भर रहने के बजाय, उन्होंने सत्यापन योग्य उत्तरों के साथ math और coding कार्यों पर Group Relative Policy Optimization (GRPO) लागू किया, जिससे मॉडल को बड़े पैमाने पर अपने आप chain-of-thought reasoning पैटर्न खोजने दिया। एक छोटे "cold start" dataset ने मदद की, लेकिन मूल अंतर्दृष्टि यह थी कि reasoning विशाल मानव annotation की आवश्यकता के बजाय ground-truth सत्यापन के साथ RL से उभर सकता है। उन्होंने "distillation" भी प्रदर्शित किया — R1 की reasoning chains की नक़ल करने के लिए छोटे मॉडलों (1.5B, 7B, 8B, 14B, 32B, 70B parameters) को प्रशिक्षित करना, कुशल मॉडलों का एक परिवार उत्पन्न करना जो अपने आकार वर्ग से बहुत ऊपर मुक्केबाज़ी करता था।

भू-राजनीति, censorship, और अनिश्चितता

DeepSeek को अमेरिका-चीन तकनीकी प्रतिस्पर्धा के संदर्भ के बाहर नहीं समझा जा सकता। कंपनी के मॉडल चीनी censorship आवश्यकताओं का पालन करते हैं — Tiananmen Square, ताइवान की स्वतंत्रता, या Xi Jinping के बारे में पूछें, और आपको या तो एक इनकार मिलेगा या चीनी सरकार की आधिकारिक स्थिति। यह चीन में संचालित किसी भी AI कंपनी के लिए एक क़ानूनी आवश्यकता है, एक विकल्प नहीं, लेकिन यह उन उपयोगकर्ताओं के लिए मॉडलों की उपयोगिता को सीमित करता है जिन्हें uncensored आउटपुट की आवश्यकता होती है (हालाँकि ओपन weights का अर्थ है कि अन्य लोग censorship को fine-tune करके बाहर निकाल सकते हैं)। अमेरिकी निर्यात नियंत्रण जो उन्नत GPUs तक चीन की पहुँच को प्रतिबंधित करते हैं, दोनों एक बाधा हैं जिसके चारों ओर DeepSeek ने काम किया है और, विरोधाभासी रूप से, एक प्रोत्साहन जिसने उन्हें उन दक्षता नवाचारों की ओर मजबूर किया जो उनका लाभ बन गए। DeepSeek के वास्तविक compute संसाधनों के बारे में भी खुले प्रश्न हैं — कुछ विश्लेषकों ने अनुमान लगाया है कि High-Flyer ने निर्यात प्रतिबंध से पहले सार्वजनिक रूप से स्वीकार किए गए से अधिक GPUs जमा किए हो सकते हैं, और V3 के लिए $5.5 मिलियन प्रशिक्षण लागत आँकड़े पर सवाल उठाया गया है क्योंकि यह संभावित रूप से महत्वपूर्ण पूर्व शोध और बुनियादी ढाँचा लागत को बाहर रखता है। बावजूद इसके, DeepSeek की उपलब्धियाँ वास्तविक हैं, उनके papers विस्तृत और पुनरुत्पादन योग्य हैं, और उन्होंने मौलिक रूप से बातचीत बदल दी है कि फ्रंटियर AI बनाने के लिए क्या आवश्यक है।

DeepSeek