La distinction compte le plus en production. La latence (en particulier le TTFT — temps jusqu'au premier token) détermine l'expérience utilisateur pour une requête unique. Le débit détermine combien d'utilisateurs tu peux servir avec un nombre donné de GPU. Les techniques qui améliorent l'un nuisent souvent à l'autre : regrouper beaucoup de requêtes ensemble améliore le débit (le GPU reste occupé) mais augmente la latence (chaque requête attend le lot).
La percée dans le service des LLM a été le batching continu (aussi appelé batching en vol). Au lieu d'attendre que toutes les requêtes d'un lot finissent avant d'en commencer de nouvelles, le batching continu ajoute de nouvelles requêtes au lot dès que des places se libèrent. Cela maintient l'utilisation du GPU élevée et empêche les requêtes courtes d'être retenues par les longues. vLLM, TGI et TensorRT-LLM l'implémentent tous.
À l'échelle, le débit détermine directement le coût par token. Un serveur générant 10 000 tokens/seconde à 10 $/heure coûte 0,001 $ par 1 000 tokens. Le même serveur à 1 000 tokens/seconde coûte 0,01 $. Cette différence de 10x est pourquoi l'optimisation de l'inférence (quantification, décodage spéculatif, meilleur batching) compte autant — c'est pas juste plus rapide, c'est moins cher. Les fournisseurs qui optimisent le débit peuvent offrir des prix plus bas ou de meilleures marges.