這個區別在生產環境中最為重要。延遲(特別是 TTFT——首個 token 時間)決定單一請求的使用者體驗。吞吐量決定你用給定數量的 GPU 可以服務多少使用者。提升一個的技術通常會損害另一個:將許多請求批量處理在一起提升吞吐量(GPU 保持忙碌),但增加延遲(每個請求等待批次處理)。
LLM 服務的突破是連續批量處理(也稱為動態批量處理)。不是等待批次中所有請求完成才開始新請求,而是在空位出現時將新請求加入批次。這保持了高 GPU 利用率,防止短請求被長請求拖慢。vLLM、TGI 和 TensorRT-LLM 都實現了這一技術。
在規模上,吞吐量直接決定每 token 成本。一台每秒生成 10,000 token、每小時 10 美元的伺服器,每 1,000 token 成本為 0.001 美元。同一台伺服器在 1,000 token/秒的情況下成本為 0.01 美元。這 10 倍的差異就是為什麼推理優化(量化、推測解碼、更好的批量處理)如此重要——它不僅更快,而且更便宜。優化吞吐量的提供者可以提供更低的價格或更高的利潤率。