LightSeek Foundation ने TokenSpeed जारी किया, MIT लाइसेंस के तहत एक ओपन-सोर्स इन्फरेंस इंजन जो NVIDIA B200 पर 8-way tensor-parallel चलने वाले Qwen3.5-397B-A17B (NVFP4 क्वांटाइज़ेशन) पर 580 tok/s सिंगल-यूज़र थ्रूपुट रिपोर्ट करता है। उन्होंने जिस एजेंटिक वर्कलोड का बेंचमार्क किया उसका आकार सही है: 50K पहला-टर्न कॉन्टेक्स्ट, 10-15 टर्न प्रत्येक 800 टोकन, >90% KV कैश हिट दर। पोजीशनिंग "TensorRT-LLM प्रदर्शन vLLM उपयोगिता के साथ" है — SPMD आर्किटेक्चर और स्थिर संकलन के साथ शून्य से निर्मित।
तीन अनुकूलन श्रेणियाँ गति वहन करती हैं। मेमोरी कॉपी उन्मूलन KV पेजों और Mamba स्टेट slots में हाइब्रिड उपसर्ग कैशिंग का उपयोग करता है (Qwen3.5 की रैखिक-ध्यान परतें आवर्तक स्टेट बनाए रखती हैं, जिसे TokenSpeed KV के साथ checkpoint करता है), सट्टा डिकोडिंग के दौरान tensor कॉपी के बजाय current_input_indices के माध्यम से index indirection, और copy-on-write semantics ताकि cached checkpoints बिना mutation के पुन: उपयोग हों। Kernel fusions बहु-चरण ops को collapse करते हैं: GemmaRMSNorm AllReduce 3 kernels से 1, QK-RMSNorm + Partial RoPE + Gate Split 5 से 1 Triton kernel registers में intermediates के साथ, MoE Gate-Sigmoid-Mul-Add 5 से 1। ओवरलैप्ड CPU-GPU निष्पादन CUDA graph capture, pinned memory के साथ async H2D, event-based layer barriers, और D2H round-trips खत्म करने के लिए GPU-side sentinels का उपयोग करता है। लंबे-कॉन्टेक्स्ट वक्र चिन्हित करने योग्य हेडलाइन संख्या है: 128K पर ~530 tok/s, 256K पर ~495 tok/s, 1M पर ~445 tok/s — 8× कॉन्टेक्स्ट विस्तार में केवल 16% गिरावट।
बिल्डर्स के लिए इकोसिस्टम रीडिंग दोगुनी है। पहला, एजेंटिक-वर्कलोड-आकार का इन्फरेंस सामान्य prompt completion से एक अलग श्रेणी बन रहा है। TokenSpeed ने जो अनुकूलन भेजे — prefix-cache-aware डिज़ाइन, मल्टी-टर्न KV पुन: उपयोग, Mamba/GDN स्टेट कैशिंग — उस regime के लिए ट्यून किए गए हैं जहाँ वही कॉन्टेक्स्ट टर्न में बढ़ता है, जो ठीक वही regime है जहाँ LLM एजेंट रहते हैं। सिंगल-बैच संख्याएँ इस वर्कलोड के लिए सबसे साफ़ संकेत हैं क्योंकि वास्तविक एजेंट ट्रेस आमतौर पर प्रति-यूज़र क्रमिक होते हैं। दूसरा, पद्धति अंतर वास्तविक है: समान Qwen3.5 NVFP4 setup पर vLLM, SGLang, या TensorRT-LLM के विरुद्ध सीधे-सीधे संख्याएँ प्रकाशित नहीं हैं, जिसका अर्थ है "580 tps रिकॉर्ड" फ्रेमिंग को स्वतंत्र runners द्वारा पुनरुत्पादन की आवश्यकता है। MIT लाइसेंस और lightseekorg/tokenspeed पर सार्वजनिक GitHub उस पुनरुत्पादन को सक्षम करते हैं, जो पद्धति-संबंधी जीत है चाहे हेडलाइन टिके या नहीं।
यदि आप सोमवार सुबह हाइब्रिड-आर्किटेक्चर मॉडल पर एजेंटिक इन्फरेंस चलाते हैं: TokenSpeed आपके विशिष्ट वर्कलोड पर एक पुनरुत्पादन रन के लायक है, विशेष रूप से यदि आपके पास B200 क्लस्टर और NVFP4-aware tooling है। यदि आप इन्फरेंस SaaS बनाते हैं: एजेंटिक-वर्कलोड अनुकूलन श्रेणी — उपसर्ग कैशिंग जो मल्टी-टर्न स्टेट churn में जीवित रहती है — अब बैच-prompt थ्रूपुट से दृश्यमान रूप से अलग है। एजेंट serving जीतने वाले इंजन वही नहीं होंगे जो थ्रूपुट बेंचमार्क जीतते हैं।
