A LightSeek Foundation lançou o TokenSpeed, um motor de inferência open source sob licença MIT que reporta 580 tok/s de throughput single-user no Qwen3.5-397B-A17B com quantização NVFP4, rodando em tensor-parallel 8-way em NVIDIA B200. A carga agentic que eles benchmarkearam tem a forma correta: 50K de contexto primeiro turno, 10-15 turnos de 800 tokens cada, >90% de hit rate de KV cache. O posicionamento é "performance TensorRT-LLM com usabilidade vLLM" — construído do zero com arquitetura SPMD e compilação estática.

Três categorias de otimização carregam a velocidade. A eliminação de cópias de memória usa caching de prefixo híbrido através de páginas KV e slots de estado Mamba (as camadas de atenção linear do Qwen3.5 mantêm estado recorrente, que o TokenSpeed checkpoint ao lado do KV), indireção de índice via current_input_indices em vez de cópias de tensor durante decodificação especulativa, e semântica copy-on-write para que checkpoints cacheados sejam reutilizados sem mutação. As fusões de kernels collapse ops multi-etapa: GemmaRMSNorm AllReduce passa de 3 kernels para 1, QK-RMSNorm + Partial RoPE + Gate Split de 5 para 1 kernel Triton com intermediários ficando nos registros, MoE Gate-Sigmoid-Mul-Add de 5 para 1. A execução CPU-GPU overlapeada usa captura CUDA graph, H2D assíncrono com memória pinned, barreiras de camada baseadas em eventos, e sentinelas do lado GPU para matar round-trips D2H. A curva long-context é o número manchete a marcar: 128K a ~530 tok/s, 256K a ~495 tok/s, 1M a ~445 tok/s — 16% de degradação através de uma expansão de contexto 8×.

A leitura de ecossistema para construtores é dupla. Primeiro, inferência em forma de carga agentic está se tornando uma categoria distinta de completação de prompt genérica. As otimizações que o TokenSpeed entregou — design prefix-cache-aware, reutilização de KV multi-turno, caching de estado Mamba/GDN — são afinadas para o regime onde o mesmo contexto cresce através de turnos, que é exatamente o regime onde vivem os agentes LLM. Os números single-batch são o sinal mais limpo para essa carga porque traços reais de agente são geralmente seriais por usuário. Segundo, a lacuna metodológica é real: nenhum número cara-a-cara contra vLLM, SGLang, ou TensorRT-LLM no mesmo setup Qwen3.5 NVFP4 publicado, o que significa que o framing "recorde 580 tps" precisa de reprodução por runners independentes. A licença MIT e o GitHub público em lightseekorg/tokenspeed habilitam essa reprodução, que é o win metodológico independente de se o título se mantém.

Se você roda inferência agentic em modelos de arquitetura híbrida segunda de manhã: TokenSpeed vale um run de reprodução em sua carga específica, particularmente se você tem um cluster B200 e tooling NVFP4-aware. Se você constrói SaaS de inferência: a categoria de otimização carga-agentic — caching de prefixo que sobrevive ao churn de estado multi-turno — agora está visivelmente separada do throughput de batch-prompt. Os motores que vão ganhar o serving de agentes não serão os mesmos que ganham benchmarks de throughput.