单个H100 GPU运行Llama 70B时,在prefill阶段利用率达到92%,然后在decode阶段骤降至28%——这一切都发生在同一个请求的几毫秒内。这不是bug,而是LLM工作方式与我们部署方式之间的根本性不匹配。Prefill通过大规模矩阵乘法并行处理整个提示,使tensor cores饱和。Decode通过内存查找逐个生成token,几乎不使用计算资源。然而大多数团队在相同的GPU池上运行两个阶段,为64个H100付费,但只从大约20个获得有意义的工作。

分离式推理由UC San Diego在2024年DistServe论文中首创,将这些工作负载分离到为各自阶段优化的硬件上。这种方法不是理论性的——Perplexity在生产中运行它,Meta和LinkedIn用它服务流量,NVIDIA围绕它构建了Dynamo框架。vLLM、SGLang和TensorRT-LLM都原生支持分离。承诺是通过为实际工作负载需求而非最坏情况调整计算规模,实现2-4倍的成本降低。

更广泛的推理优化格局显示,这种架构转变在学术论文之外正获得动力。虽然我在4月份报道了Cursor's Warp Decode声称的1.8倍加速——缺乏具体证明——分离式推理通过你可以实际验证的生产部署提供可测量的成本改进。LLM Inference Handbook指出,并置的prefill和decode会产生调度冲突,计算密集的prefill阻塞内存受限的decode,同时增加首token时间和token间延迟。

对于大规模运行推理的开发者,分离需要重新思考部署架构,但提供真实的成本节约。如果你在推理工作负载上烧钱H100预算,硬件利用率不匹配的成本可能超过实现独立prefill和decode集群的工程努力。