LightSeek TokenSpeed: 580 tps Qwen3.5-397B-A17B en B200, MIT OSS

LightSeek Foundation lanzó TokenSpeed, un motor de inferencia open source bajo licencia MIT que reporta 580 tok/s de throughput single-user en Qwen3.5-397B-A17B con cuantización NVFP4, corriendo en tensor-parallel 8-way en NVIDIA B200. La carga agentic que benchmarkearon tiene la forma correcta: 50K de contexto primer turno, 10-15 turnos de 800 tokens cada uno, >90% de hit rate de KV cache. El posicionamiento es "performance TensorRT-LLM con usabilidad vLLM" — construido desde cero con arquitectura SPMD y compilación estática.

Tres categorías de optimización cargan la velocidad. La eliminación de copias de memoria usa caching de prefijo híbrido a través de páginas KV y slots de estado Mamba (las capas de atención lineal de Qwen3.5 mantienen estado recurrente, que TokenSpeed checkpoint junto al KV), indirección de índice vía current_input_indices en lugar de copias de tensor durante decodificación especulativa, y semántica copy-on-write para que los checkpoints cacheados se reutilicen sin mutación. Las fusiones de kernels collapse ops multi-etapa: GemmaRMSNorm AllReduce pasa de 3 kernels a 1, QK-RMSNorm + Partial RoPE + Gate Split de 5 a 1 kernel Triton con intermedios quedándose en registros, MoE Gate-Sigmoid-Mul-Add de 5 a 1. La ejecución CPU-GPU overlapeada usa captura CUDA graph, H2D asíncrono con memoria pinned, barreras de capa basadas en eventos, y sentinelas del lado GPU para matar round-trips D2H. La curva long-context es el número titular que marcar: 128K a ~530 tok/s, 256K a ~495 tok/s, 1M a ~445 tok/s — 16% de degradación a través de una expansión de contexto 8×.

La lectura de ecosistema para constructores es doble. Primero, la inferencia en forma de carga agentic se está volviendo una categoría distinta de la completación de prompts genérica. Las optimizaciones que TokenSpeed envió — diseño prefix-cache-aware, reutilización de KV multi-turno, caching de estado Mamba/GDN — están tuneadas para el régimen donde el mismo contexto crece a través de turnos, que es exactamente el régimen donde viven los agentes LLM. Los números single-batch son la señal más limpia para esta carga porque las trazas reales de agente son usualmente seriales por usuario. Segundo, la brecha metodológica es real: no hay números cara-a-cara contra vLLM, SGLang, o TensorRT-LLM en el mismo setup Qwen3.5 NVFP4 publicados, lo que significa que el framing "récord 580 tps" necesita reproducción por runners independientes. La licencia MIT y el GitHub público en lightseekorg/tokenspeed habilitan esa reproducción, que es el win metodológico independientemente de si el titular se mantiene.

Si corres inferencia agentic en modelos de arquitectura híbrida el lunes por la mañana: TokenSpeed vale un run de reproducción en tu carga específica, particularmente si tienes un cluster B200 y tooling NVFP4-aware. Si construyes SaaS de inferencia: la categoría de optimización carga-agentic — caching de prefijo que sobrevive al churn de estado multi-turno — ahora está visiblemente separada del throughput de batch-prompt. Los motores que ganarán el serving de agentes no serán los mismos que ganan benchmarks de throughput.

LightSeek TokenSpeed: 580 tps Qwen3.5-397B-A17B en B200, MIT OSS

Más noticias