Throughput：定義與含義 — AI 維基

系統在所有並行請求中每秒可生成的 token 總數。與延遲（單一請求被服務的速度）不同。具有高吞吐量的系統可同時服務許多使用者。具有低延遲的系統讓每個個別使用者感覺很快。兩者之間通常存在權衡。

為什麼重要

建構 AI 產品時，吞吐量決定你的服務成本和容量。一個每秒為每個使用者生成 100 token 但只能服務一個使用者的系統，即使個別延遲很好，吞吐量也很低。當你為數千個並行使用者支付 GPU 費用時，吞吐量才是你要優化的目標。

深度解析

這個區別在生產環境中最為重要。延遲（特別是 TTFT——首個 token 時間）決定單一請求的使用者體驗。吞吐量決定你用給定數量的 GPU 可以服務多少使用者。提升一個的技術通常會損害另一個：將許多請求批量處理在一起提升吞吐量（GPU 保持忙碌），但增加延遲（每個請求等待批次處理）。

連續批量處理

LLM 服務的突破是連續批量處理（也稱為動態批量處理）。不是等待批次中所有請求完成才開始新請求，而是在空位出現時將新請求加入批次。這保持了高 GPU 利用率，防止短請求被長請求拖慢。vLLM、TGI 和 TensorRT-LLM 都實現了這一技術。

經濟學

在規模上，吞吐量直接決定每 token 成本。一台每秒生成 10,000 token、每小時 10 美元的伺服器，每 1,000 token 成本為 0.001 美元。同一台伺服器在 1,000 token/秒的情況下成本為 0.01 美元。這 10 倍的差異就是為什麼推理優化（量化、推測解碼、更好的批量處理）如此重要——它不僅更快，而且更便宜。優化吞吐量的提供者可以提供更低的價格或更高的利潤率。

Throughput

為什麼重要

深度解析

連續批量處理

經濟學

相關概念