EAGLE टीम, vLLM, और TorchSpec ने संयुक्त रूप से EAGLE 3.1 जारी किया, स्पेक्युलेटिव डिकोडिंग में एक वास्तविक प्रोडक्शन बग को ठीक करते हुए: जैसे-जैसे स्पेक्युलेशन गहराई बढ़ती है, drafter मॉडल sink टोकन से अपने स्वयं के जेनरेट किए टोकन की ओर ध्यान स्थानांतरित करता है, स्वीकृति लंबाई और आउटपुट स्थिरता को कम करता है। फिक्स दो आर्किटेक्चरल बदलाव हैं — FC नॉर्मलाइज़ेशन प्रत्येक target हिडन स्टेट के बाद और FC लेयर से पहले लागू की गई ताकि हिडन-स्टेट परिमाण को सीमित किया जा सके, साथ ही post-norm हिडन-स्टेट फीडबैक ताकि drafter संलग्न परतों के बजाय रिकर्सिव इन्वोकेशन की तरह व्यवहार करे। पहले से ही vLLM मेन में मर्ज, v0.22.0 में शिप हो रहा, मौजूदा EAGLE 3 चेकपॉइंट के साथ बैकवर्ड कम्पैटिबल।
रिपोर्ट किए गए लाभ ठोस हैं। लॉन्ग-कॉन्टेक्स्ट वर्कलोड पर, EAGLE 3 की तुलना में 2× तक लंबी स्वीकृति लंबाई। Kimi K2.6-NVFP4 SPEED-Bench कोडिंग पर, प्रति उपयोगकर्ता थ्रूपुट लिफ्ट: कॉनकरेंसी 1 पर 2.03×, कॉनकरेंसी 4 पर 1.71×, कॉनकरेंसी 16 पर 1.66×। पैटर्न — कम कॉनकरेंसी पर सबसे बड़ा लिफ्ट, कॉनकरेंसी बढ़ने पर संकुचित — किसी भी स्पेक्युलेटिव डिकोडिंग लाभ से बिल्डर्स को क्या उम्मीद करनी चाहिए: स्पेक्युलेटिव डिकोडिंग तब जीतती है जब मॉडल प्रति request मेमोरी बैंडविड्थ पर बॉटलनेक होता है, यही कम कॉनकरेंसी का शासन है। उच्च कॉनकरेंसी पर आप समग्र थ्रूपुट पर बॉटलनेक हैं और स्पेक्युलेटिव win छोटा है। रिलीज़ में Medusa या वैनिला draft-model बेसलाइन के विरुद्ध कोई सीधी तुलना नहीं दिखाई गई, यह फ्लैग करने योग्य पद्धति गैप है।
इकोसिस्टम रीडिंग संख्याओं से अधिक इंटीग्रेशन पथ में बैठती है। EAGLE दो साल से प्रोडक्शन स्पेक्युलेटिव डिकोडिंग परिवार रहा है; vLLM सेल्फ-होस्टेड LLMs के लिए डिफ़ॉल्ट इन्फरेंस इंजन है; TorchSpec ट्रेनिंग साइड प्रदान करता है। जब तीनों एक ऐसे रिलीज़ पर अभिसरण करते हैं जो एक ज्ञात अस्थिरता को बैकवर्ड-कम्पैटिबल एल्गोरिथमिक बदलाव के साथ ठीक करता है, वह इन्फरेंस stack अपनी load-bearing वेरिएंस को कम कर रहा है, फ़ीचर नहीं जोड़ रहा। HuggingFace पर Kimi K2.6 के लिए ओपन-सोर्स्ड draft model का मतलब है कि Kimi पर बिल्डर्स के पास पहले से ही आर्टिफैक्ट है; अन्य बेस मॉडलों के लिए, ट्रेनिंग-साइड का काम TorchSpec पर है। बढ़ती कॉन्टेक्स्ट विंडो के साथ एजेंटिक लूप वे हैं जहाँ अटेंशन ड्रिफ्ट सबसे अधिक चोट पहुँचाता था — लंबे एजेंट ट्रेस, लंबी फ़ाइलों में कोड कम्प्लीशन, डॉक्यूमेंट QA — और ये बिल्कुल वे वर्कलोड हैं जहाँ 2× स्वीकृति लंबाई उपयोगकर्ता-दृश्य लेटेंसी जीत में अनुवाद करती है।
यदि आप प्रोडक्शन में vLLM चलाते हैं: 0.22.0 अपग्रेड शेड्यूल करें और जब संभव हो TorchSpec पर अपने draft मॉडलों को फिर से प्रशिक्षित करें। यदि आप इन्फरेंस SaaS बनाते हैं: यह वह बदलाव है जो आपके stack का उपयोग करने वाले सभी के लिए लॉन्ग-कॉन्टेक्स्ट लागत वक्र को चुपचाप बेहतर बनाता है।
