Zubnet AI學習Wiki › Throughput
基礎設施

Throughput

別名:每秒 Token 數、TPS
系統在所有並行請求中每秒可生成的 token 總數。與延遲(單一請求被服務的速度)不同。具有高吞吐量的系統可同時服務許多使用者。具有低延遲的系統讓每個個別使用者感覺很快。兩者之間通常存在權衡。

為什麼重要

建構 AI 產品時,吞吐量決定你的服務成本和容量。一個每秒為每個使用者生成 100 token 但只能服務一個使用者的系統,即使個別延遲很好,吞吐量也很低。當你為數千個並行使用者支付 GPU 費用時,吞吐量才是你要優化的目標。

深度解析

這個區別在生產環境中最為重要。延遲(特別是 TTFT——首個 token 時間)決定單一請求的使用者體驗。吞吐量決定你用給定數量的 GPU 可以服務多少使用者。提升一個的技術通常會損害另一個:將許多請求批量處理在一起提升吞吐量(GPU 保持忙碌),但增加延遲(每個請求等待批次處理)。

連續批量處理

LLM 服務的突破是連續批量處理(也稱為動態批量處理)。不是等待批次中所有請求完成才開始新請求,而是在空位出現時將新請求加入批次。這保持了高 GPU 利用率,防止短請求被長請求拖慢。vLLM、TGI 和 TensorRT-LLM 都實現了這一技術。

經濟學

在規模上,吞吐量直接決定每 token 成本。一台每秒生成 10,000 token、每小時 10 美元的伺服器,每 1,000 token 成本為 0.001 美元。同一台伺服器在 1,000 token/秒的情況下成本為 0.01 美元。這 10 倍的差異就是為什麼推理優化(量化、推測解碼、更好的批量處理)如此重要——它不僅更快,而且更便宜。優化吞吐量的提供者可以提供更低的價格或更高的利潤率。

相關概念

← 所有術語
← Synthetic Data(合成資料) Together AI →
ESC