为什么你的H100在LLM推理时浪费了70%的算力

单个H100 GPU运行Llama 70B时，在prefill阶段利用率达到92%，然后在decode阶段骤降至28%——这一切都发生在同一个请求的几毫秒内。这不是bug，而是LLM工作方式与我们部署方式之间的根本性不匹配。Prefill通过大规模矩阵乘法并行处理整个提示，使tensor cores饱和。Decode通过内存查找逐个生成token，几乎不使用计算资源。然而大多数团队在相同的GPU池上运行两个阶段，为64个H100付费，但只从大约20个获得有意义的工作。

分离式推理由UC San Diego在2024年DistServe论文中首创，将这些工作负载分离到为各自阶段优化的硬件上。这种方法不是理论性的——Perplexity在生产中运行它，Meta和LinkedIn用它服务流量，NVIDIA围绕它构建了Dynamo框架。vLLM、SGLang和TensorRT-LLM都原生支持分离。承诺是通过为实际工作负载需求而非最坏情况调整计算规模，实现2-4倍的成本降低。

更广泛的推理优化格局显示，这种架构转变在学术论文之外正获得动力。虽然我在4月份报道了Cursor's Warp Decode声称的1.8倍加速——缺乏具体证明——分离式推理通过你可以实际验证的生产部署提供可测量的成本改进。LLM Inference Handbook指出，并置的prefill和decode会产生调度冲突，计算密集的prefill阻塞内存受限的decode，同时增加首token时间和token间延迟。

对于大规模运行推理的开发者，分离需要重新思考部署架构，但提供真实的成本节约。如果你在推理工作负载上烧钱H100预算，硬件利用率不匹配的成本可能超过实现独立prefill和decode集群的工程努力。

为什么你的H100在LLM推理时浪费了70%的算力

更多新闻