Throughput（吞吐量）：定义与含义 — AI 维基

系统在所有并发请求中每秒能够生成的token总数。与延迟（单个请求的服务速度）不同。高吞吐量的系统同时服务许多用户。低延迟的系统快速服务每个用户。两者之间通常存在权衡。

为什么重要

在构建AI产品时，吞吐量决定你的服务成本和容量。一个每用户每秒生成100个token但只能同时服务一个用户的系统，即使单个延迟很好，吞吐量也很低。当你要为数千个并发用户支付GPU账单时，吞吐量就是你需要优化的指标。

深度解析

这个区别在生产中最为重要。延迟（特别是TTFT——首个token的时间）决定了单个请求的用户体验。吞吐量决定了你用给定数量的GPU能服务多少用户。提高一个的技术往往会损害另一个：将许多请求批量处理在一起提高了吞吐量（GPU保持忙碌），但增加了延迟（每个请求都要等待批次）。

连续批处理

LLM服务的突破是连续批处理（也称为在线批处理）。不是等待批次中所有请求完成后再开始新的，而是在空位出现时将新请求添加到批次中。这保持GPU利用率高，防止短请求被长请求拖慢。vLLM、TGI和TensorRT-LLM都实现了这一功能。

经济学

在规模上，吞吐量直接决定每token的成本。一台每秒生成10000个token、每小时10美元的服务器，每1000个token的成本为0.001美元。同一台服务器在每秒1000个token时成本为0.01美元。这10倍的差异就是为什么推理优化（量化、投机解码、更好的批处理）如此重要——它不仅更快，还更便宜。优化吞吐量的提供商可以提供更低的价格或更高的利润率。

Throughput

为什么重要

深度解析

连续批处理

经济学

相关概念