LightSeek TokenSpeed : 580 tps Qwen3.5-397B-A17B sur B200, MIT OSS

LightSeek Foundation a sorti TokenSpeed, un moteur d'inférence open source sous licence MIT qui rapporte 580 tok/s de throughput single-user sur Qwen3.5-397B-A17B avec quantization NVFP4, roulant en tensor-parallel 8-way sur NVIDIA B200. La charge agentique qu'ils ont benchmarkée a la bonne forme : 50K de contexte premier tour, 10-15 tours de 800 tokens chacun, >90% de hit rate de KV cache. Le positionnement, c'est « performance TensorRT-LLM avec usabilité vLLM » — bâti à partir de zéro avec architecture SPMD pis compilation statique.

Trois catégories d'optimisation portent la vitesse. L'élimination des copies mémoire utilise du caching de préfixe hybride à travers les pages KV pis les slots d'état Mamba (les couches d'attention linéaire de Qwen3.5 maintiennent de l'état récurrent, que TokenSpeed checkpoint à côté du KV), de l'indirection d'index via current_input_indices au lieu de copies de tenseur durant le décodage spéculatif, pis de la sémantique copy-on-write pour que les checkpoints cachés soient réutilisés sans mutation. Les fusions de kernels collapse les ops multi-étapes : GemmaRMSNorm AllReduce passe de 3 kernels à 1, QK-RMSNorm + Partial RoPE + Gate Split de 5 à 1 kernel Triton avec les intermédiaires qui restent dans les registres, MoE Gate-Sigmoid-Mul-Add de 5 à 1. L'exécution CPU-GPU overlappée utilise la capture CUDA graph, H2D asynchrone avec mémoire pinned, barrières de couche basées sur événements, pis sentinelles côté GPU pour tuer les round-trips D2H. La courbe long-context, c'est le chiffre titre à marquer : 128K à ~530 tok/s, 256K à ~495 tok/s, 1M à ~445 tok/s — 16% de dégradation à travers une expansion 8× de contexte.

La lecture écosystème pour les bâtisseurs est double. Premièrement, l'inférence en forme de charge agentique devient une catégorie distincte de la complétion de prompts génériques. Les optimisations que TokenSpeed a shipées — design prefix-cache-aware, réutilisation de KV multi-tours, caching d'état Mamba/GDN — sont tunées pour le régime où le même contexte grossit à travers les tours, ce qui est exactement le régime où vivent les agents LLM. Les chiffres single-batch sont le signal le plus propre pour cette charge parce que les vraies traces d'agent sont habituellement sérielles par utilisateur. Deuxièmement, le gap méthodologique est réel : pas de chiffres tête-à-tête contre vLLM, SGLang, ou TensorRT-LLM sur le même setup Qwen3.5 NVFP4 publiés, ce qui veut dire que le framing « record 580 tps » a besoin de reproduction par des runners indépendants. La licence MIT pis le GitHub public à lightseekorg/tokenspeed permettent cette reproduction, ce qui est le win méthodologique peu importe si le titre tient.

Si tu roules de l'inférence agentique sur des modèles à architecture hybride lundi matin : TokenSpeed vaut un run de reproduction sur ta charge spécifique, particulièrement si t'as un cluster B200 pis du tooling NVFP4-aware. Si tu bâtis du SaaS d'inférence : la catégorie d'optimisation charge-agentique — caching de préfixe qui survit au churn d'état multi-tours — est maintenant visiblement séparée du throughput de batch-prompt. Les moteurs qui vont gagner le serving d'agents ne seront pas les mêmes qui gagnent les benchmarks de throughput.

LightSeek TokenSpeed : 580 tps Qwen3.5-397B-A17B sur B200, MIT OSS

Plus de nouvelles