这个区别在生产中最为重要。延迟(特别是TTFT——首个token的时间)决定了单个请求的用户体验。吞吐量决定了你用给定数量的GPU能服务多少用户。提高一个的技术往往会损害另一个:将许多请求批量处理在一起提高了吞吐量(GPU保持忙碌),但增加了延迟(每个请求都要等待批次)。
LLM服务的突破是连续批处理(也称为在线批处理)。不是等待批次中所有请求完成后再开始新的,而是在空位出现时将新请求添加到批次中。这保持GPU利用率高,防止短请求被长请求拖慢。vLLM、TGI和TensorRT-LLM都实现了这一功能。
在规模上,吞吐量直接决定每token的成本。一台每秒生成10000个token、每小时10美元的服务器,每1000个token的成本为0.001美元。同一台服务器在每秒1000个token时成本为0.01美元。这10倍的差异就是为什么推理优化(量化、投机解码、更好的批处理)如此重要——它不仅更快,还更便宜。优化吞吐量的提供商可以提供更低的价格或更高的利润率。