La distinción importa más en producción. La latencia (particularmente TTFT — tiempo hasta el primer token) determina la experiencia del usuario para una sola solicitud. El rendimiento determina cuántos usuarios puedes servir con un número dado de GPUs. Técnicas que mejoran uno frecuentemente perjudican al otro: agrupar muchas solicitudes mejora el rendimiento (la GPU se mantiene ocupada) pero aumenta la latencia (cada solicitud espera por el batch).
El avance en el servicio de LLMs fue el batching continuo (también llamado batching en vuelo). En lugar de esperar a que todas las solicitudes en un batch terminen antes de iniciar nuevas, el batching continuo añade nuevas solicitudes al batch conforme se abren espacios. Esto mantiene alta la utilización de la GPU y evita que solicitudes cortas sean retenidas por las largas. vLLM, TGI y TensorRT-LLM implementan esto.
A escala, el rendimiento determina directamente el costo por token. Un servidor generando 10,000 tokens/segundo a $10/hora cuesta $0.001 por 1,000 tokens. El mismo servidor a 1,000 tokens/segundo cuesta $0.01. Esta diferencia de 10x es por qué la optimización de inferencia (cuantización, decodificación especulativa, mejor batching) importa tanto — no solo es más rápido, es más barato. Los proveedores que optimizan el rendimiento pueden ofrecer precios más bajos o mayores márgenes.