DeepSeek ने DSpark जारी किया है, एक speculative decoding फ्रेमवर्क जो उसके DeepSeek-V4 Flash और Pro मॉडलों को टेक्स्ट तेज़ी से उत्पन्न करने में सक्षम बनाता है। यह enhanced checkpoints के रूप में भेजा जा रहा है, यानी वही अंतर्निहित मॉडल जिसमें एक छोटा अतिरिक्त decoding मॉड्यूल जुड़ा हुआ है, नई क्षमताओं वाला कोई नया मॉडल नहीं। मुद्दा एक अधिक बुद्धिमान प्रणाली का नहीं है, बल्कि एक सस्ती और तेज़ प्रणाली का है।

Speculative decoding को समझना सार्थक है क्योंकि यह AI अर्थशास्त्र में सबसे शांत और सबसे उपयोगी लीवरों में से एक है। आम तौर पर एक बड़ा मॉडल एक बार में एक token टेक्स्ट उत्पन्न करता है, हर चरण पिछले पर निर्भर रहता है, जो धीमा है। Speculative decoding के साथ, एक छोटा तेज़ draft model कई tokens आगे का अनुमान लगाता है, और बड़ा मॉडल उन सभी अनुमानों को एक साथ जाँचता है। जब अनुमान सही होते हैं, और सामान्य टेक्स्ट के लिए वे अक्सर सही होते हैं, तो आपको वही आउटपुट मिलता है जो बड़े मॉडल ने उत्पन्न किया होता, लेकिन कहीं कम धीमे क्रमिक चरणों में। परिणाम उच्च गति पर समान गुणवत्ता है।

DSpark का विशिष्ट योगदान इस बात में है कि यह उन अनुमानों को कैसे बनाता है। यह दो मौजूदा तरीकों को जोड़ता है: एक भारी समानांतर head, DFlash नामक विधि की शैली में, एक छोटे क्रमिक head के साथ जो Eagle परिवार की तरह अधिक काम करता है, एक हल्के Markov चरण का उपयोग करते हुए। यह मिश्रण स्वीकृति दर को बढ़ाता है, यानी draft model के अधिक अनुमानित tokens बड़े मॉडल की जाँच में बच जाते हैं, जो वह संख्या है जो वास्तव में तय करती है कि आपको कितनी गति मिलती है। DeepSeek के अपने परीक्षण के अनुसार, DSpark Eagle3 और DFlash दोनों को मात देता है, स्वीकृत token की लंबाई को लगभग 16 से 31 प्रतिशत बढ़ाता है और कार्य के आधार पर throughput को 51 प्रतिशत से लेकर 400 प्रतिशत तक बढ़ाता है, साथ ही कम latency के साथ।

ज़्यादा महत्वपूर्ण कदम वह है जो DeepSeek ने इस फ्रेमवर्क के साथ-साथ किया। उसने DeepSpec को ओपन-सोर्स किया, उन छोटे draft models को प्रशिक्षित और मूल्यांकन करने के लिए एक पूरा codebase जिन पर speculative decoding निर्भर करता है, और महत्वपूर्ण रूप से यह DeepSeek के अपने मॉडलों तक सीमित नहीं है। DeepSpec को अन्य open models पर भी काम करने के लिए बनाया गया है, जिसमें Google का Gemma और Alibaba का Qwen शामिल हैं। यह एक निजी गति-वृद्धि को एक साझा उपकरण में बदल देता है: उन open models को चलाने वाला कोई भी व्यक्ति एक draft model प्रशिक्षित कर सकता है और समान लाभ हासिल कर सकता है, बजाय इसके कि हर लैब अपना खुद का स्वामित्व वाला संस्करण भेजने का इंतज़ार करे।

प्रदर्शन के दावों के लिए ईमानदार चेतावनियाँ सामान्य ही हैं। ये आँकड़े DeepSeek के अपने हैं और स्वतंत्र रूप से सत्यापित नहीं किए गए हैं, और speculative decoding के लाभ workload के साथ व्यापक रूप से बदलते हैं, इसलिए सुर्खियों वाला 400 प्रतिशत अनुकूल कार्यों के लिए एक सर्वोत्तम स्थिति है, न कि कोई ऐसी संख्या जिसकी हर जगह उम्मीद की जानी चाहिए। लेकिन समग्र दिशा किसी भी एकल आँकड़े से अधिक मायने रखती है। Inference, यानी एक मॉडल के अस्तित्व में आने के बाद उसे वास्तव में चलाने की लागत, वही जगह है जहाँ तैनात AI में अधिकांश पैसा खर्च होता है, और इस तरह की तकनीकों की एक निरंतर धारा उस लागत को नीचे धकेलती रहती है। टूलकिट को ओपन-सोर्स करना, और उसे अन्य लैबों के मॉडलों पर काम करवाना, इस लाभ को DeepSeek के अपने बहीखाते से कहीं अधिक व्यापक रूप से फैलाता है। चमकदार रिलीज़ सुर्खियाँ बटोरती हैं, लेकिन यह इसी तरह का काम है जो चुपचाप तय करता है कि AI वास्तव में कितना सुलभ बनता है।