Zubnet AIApprendreWiki › Débit
Infrastructure

Débit

Aussi appelé : Tokens par seconde, TPS
Le nombre total de tokens qu'un système peut générer par seconde à travers toutes les requêtes concurrentes. Distinct de la latence (la rapidité avec laquelle une requête individuelle est servie). Un système avec un haut débit sert de nombreux utilisateurs simultanément. Un système avec une faible latence sert chaque utilisateur individuel rapidement. Les deux s'opposent souvent.

Pourquoi c'est important

Quand tu construis des produits IA, le débit détermine tes coûts de service et ta capacité. Un système qui génère 100 tokens/seconde par utilisateur mais ne peut servir qu'un seul utilisateur à la fois a un faible débit même si la latence individuelle est excellente. Le débit est ce que tu optimises quand tu paies des factures GPU pour des milliers d'utilisateurs concurrents.

En profondeur

La distinction compte le plus en production. La latence (en particulier le TTFT — temps jusqu'au premier token) détermine l'expérience utilisateur pour une requête unique. Le débit détermine combien d'utilisateurs tu peux servir avec un nombre donné de GPU. Les techniques qui améliorent l'un nuisent souvent à l'autre : regrouper beaucoup de requêtes ensemble améliore le débit (le GPU reste occupé) mais augmente la latence (chaque requête attend le lot).

Batching continu

La percée dans le service des LLM a été le batching continu (aussi appelé batching en vol). Au lieu d'attendre que toutes les requêtes d'un lot finissent avant d'en commencer de nouvelles, le batching continu ajoute de nouvelles requêtes au lot dès que des places se libèrent. Cela maintient l'utilisation du GPU élevée et empêche les requêtes courtes d'être retenues par les longues. vLLM, TGI et TensorRT-LLM l'implémentent tous.

L'économie

À l'échelle, le débit détermine directement le coût par token. Un serveur générant 10 000 tokens/seconde à 10 $/heure coûte 0,001 $ par 1 000 tokens. Le même serveur à 1 000 tokens/seconde coûte 0,01 $. Cette différence de 10x est pourquoi l'optimisation de l'inférence (quantification, décodage spéculatif, meilleur batching) compte autant — c'est pas juste plus rapide, c'est moins cher. Les fournisseurs qui optimisent le débit peuvent offrir des prix plus bas ou de meilleures marges.

Concepts connexes

← Tous les termes
← Dropout Effondrement de modèle →
ESC