Zubnet AIAprenderWiki › Throughput
Infraestrutura

Throughput

Também conhecido como: Tokens Por Segundo, TPS
O número total de tokens que um sistema pode gerar por segundo entre todas as requisições concorrentes. Distinto de latência (quão rápido uma única requisição é atendida). Um sistema com alto throughput atende muitos usuários simultaneamente. Um sistema com baixa latência atende cada usuário individual rapidamente. Os dois frequentemente são um trade-off entre si.

Por que isso importa

Ao construir produtos de IA, throughput determina seus custos de serving e capacidade. Um sistema que gera 100 tokens/segundo por usuário mas só consegue atender um usuário por vez tem baixo throughput mesmo que a latência individual seja ótima. Throughput é o que você otimiza quando está pagando contas de GPU para milhares de usuários concorrentes.

Em profundidade

A distinção importa mais em produção. Latência (particularmente TTFT — time to first token) determina a experiência do usuário para uma única requisição. Throughput determina quantos usuários você pode atender com um dado número de GPUs. Técnicas que melhoram um frequentemente prejudicam o outro: agrupar muitas requisições melhora throughput (a GPU fica ocupada) mas aumenta latência (cada requisição espera pelo batch).

Continuous Batching

A revolução no serving de LLMs foi o continuous batching (também chamado in-flight batching). Em vez de esperar todas as requisições de um batch terminarem antes de começar novas, continuous batching adiciona novas requisições ao batch conforme slots abrem. Isso mantém a utilização da GPU alta e evita que requisições curtas sejam seguradas por longas. vLLM, TGI e TensorRT-LLM todos implementam isso.

A Economia

Em escala, throughput determina diretamente o custo por token. Um servidor gerando 10.000 tokens/segundo a $10/hora custa $0,001 por 1.000 tokens. O mesmo servidor a 1.000 tokens/segundo custa $0,01. Essa diferença de 10x é por que otimização de inferência (quantização, speculative decoding, melhor batching) importa tanto — não é só mais rápido, é mais barato. Provedores que otimizam throughput podem oferecer preços menores ou margens maiores.

Conceitos relacionados

← Todos os termos
← Texto-para-Fala Together AI →