Zubnet AIApprendreWiki › Throughput
Infrastructure

Throughput

Tokens Per Second, TPS
Le nombre total de tokens qu'un système peut générer par seconde à travers toutes les requêtes concurrentes. Distinct de la latence (la vitesse à laquelle une seule requête est servie). Un système à haut débit sert beaucoup d'utilisateurs simultanément. Un système à basse latence sert chaque utilisateur individuel rapidement. Les deux s'échangent souvent l'un contre l'autre.

Pourquoi c'est important

Quand tu construis des produits IA, le débit détermine tes coûts de serving et ta capacité. Un système qui génère 100 tokens/seconde par utilisateur mais ne peut servir qu'un utilisateur à la fois a un faible débit même si la latence individuelle est super. Le débit, c'est ce que tu optimises quand tu paies des factures GPU pour des milliers d'utilisateurs concurrents.

Deep Dive

The distinction matters most in production. Latency (particularly TTFT — time to first token) determines user experience for a single request. Throughput determines how many users you can serve with a given number of GPUs. Techniques that improve one often hurt the other: batching many requests together improves throughput (the GPU stays busy) but increases latency (each request waits for the batch).

Continuous Batching

The breakthrough in LLM serving was continuous batching (also called in-flight batching). Instead of waiting for all requests in a batch to finish before starting new ones, continuous batching adds new requests to the batch as slots open up. This keeps GPU utilization high and prevents short requests from being held up by long ones. vLLM, TGI, and TensorRT-LLM all implement this.

The Economics

At scale, throughput directly determines cost per token. A server generating 10,000 tokens/second at $10/hour costs $0.001 per 1,000 tokens. The same server at 1,000 tokens/second costs $0.01. This 10x difference is why inference optimization (quantization, speculative decoding, better batching) matters so much — it's not just faster, it's cheaper. Providers who optimize throughput can offer lower prices or higher margins.

Concepts liés

← Tous les termes
← Text-to-Speech Together AI →