Zubnet AI学习Wiki › Throughput
基础设施

Throughput

别名:每秒token数、TPS
系统在所有并发请求中每秒能够生成的token总数。与延迟(单个请求的服务速度)不同。高吞吐量的系统同时服务许多用户。低延迟的系统快速服务每个用户。两者之间通常存在权衡。

为什么重要

在构建AI产品时,吞吐量决定你的服务成本和容量。一个每用户每秒生成100个token但只能同时服务一个用户的系统,即使单个延迟很好,吞吐量也很低。当你要为数千个并发用户支付GPU账单时,吞吐量就是你需要优化的指标。

深度解析

这个区别在生产中最为重要。延迟(特别是TTFT——首个token的时间)决定了单个请求的用户体验。吞吐量决定了你用给定数量的GPU能服务多少用户。提高一个的技术往往会损害另一个:将许多请求批量处理在一起提高了吞吐量(GPU保持忙碌),但增加了延迟(每个请求都要等待批次)。

连续批处理

LLM服务的突破是连续批处理(也称为在线批处理)。不是等待批次中所有请求完成后再开始新的,而是在空位出现时将新请求添加到批次中。这保持GPU利用率高,防止短请求被长请求拖慢。vLLM、TGI和TensorRT-LLM都实现了这一功能。

经济学

在规模上,吞吐量直接决定每token的成本。一台每秒生成10000个token、每小时10美元的服务器,每1000个token的成本为0.001美元。同一台服务器在每秒1000个token时成本为0.01美元。这10倍的差异就是为什么推理优化(量化、投机解码、更好的批处理)如此重要——它不仅更快,还更便宜。优化吞吐量的提供商可以提供更低的价格或更高的利润率。

相关概念

← 所有术语
← SwiGLU Together AI →