為什麼你的H100在LLM推理時浪費了70%的運算力

單個H100 GPU執行Llama 70B時，在prefill階段利用率達到92%，然後在decode階段驟降至28%——這一切都發生在同一個請求的幾毫秒內。這不是bug，而是LLM工作方式與我們部署方式之間的根本性不匹配。Prefill透過大規模矩陣乘法並行處理整個提示，使tensor cores飽和。Decode透過記憶體查找逐個產生token，幾乎不使用運算資源。然而大多數團隊在相同的GPU池上執行兩個階段，為64個H100付費，但只從大約20個獲得有意義的工作。

分散式推理由UC San Diego在2024年DistServe論文中首創，將這些工作負載分離到為各自階段最佳化的硬體上。這種方法不是理論性的——Perplexity在生產中執行它，Meta和LinkedIn用它服務流量，NVIDIA圍繞它建構了Dynamo框架。vLLM、SGLang和TensorRT-LLM都原生支援分散。承諾是透過為實際工作負載需求而非最壞情況調整運算規模，實現2-4倍的成本降低。

更廣泛的推理最佳化格局顯示，這種架構轉變在學術論文之外正獲得動力。雖然我在4月份報導了Cursor's Warp Decode聲稱的1.8倍加速——缺乏具體證明——分散式推理透過你可以實際驗證的生產部署提供可測量的成本改進。LLM Inference Handbook指出，並置的prefill和decode會產生排程衝突，運算密集的prefill阻塞記憶體受限的decode，同時增加首token時間和token間延遲。

對於大規模執行推理的開發者，分散需要重新思考部署架構，但提供真實的成本節約。如果你在推理工作負載上燒錢H100預算，硬體利用率不匹配的成本可能超過實現獨立prefill和decode集群的工程努力。

為什麼你的H100在LLM推理時浪費了70%的運算力

更多新聞