A distinção importa mais em produção. Latência (particularmente TTFT — time to first token) determina a experiência do usuário para uma única requisição. Throughput determina quantos usuários você pode atender com um dado número de GPUs. Técnicas que melhoram um frequentemente prejudicam o outro: agrupar muitas requisições melhora throughput (a GPU fica ocupada) mas aumenta latência (cada requisição espera pelo batch).
A revolução no serving de LLMs foi o continuous batching (também chamado in-flight batching). Em vez de esperar todas as requisições de um batch terminarem antes de começar novas, continuous batching adiciona novas requisições ao batch conforme slots abrem. Isso mantém a utilização da GPU alta e evita que requisições curtas sejam seguradas por longas. vLLM, TGI e TensorRT-LLM todos implementam isso.
Em escala, throughput determina diretamente o custo por token. Um servidor gerando 10.000 tokens/segundo a $10/hora custa $0,001 por 1.000 tokens. O mesmo servidor a 1.000 tokens/segundo custa $0,01. Essa diferença de 10x é por que otimização de inferência (quantização, speculative decoding, melhor batching) importa tanto — não é só mais rápido, é mais barato. Provedores que otimizam throughput podem oferecer preços menores ou margens maiores.