單個H100 GPU執行Llama 70B時,在prefill階段利用率達到92%,然後在decode階段驟降至28%——這一切都發生在同一個請求的幾毫秒內。這不是bug,而是LLM工作方式與我們部署方式之間的根本性不匹配。Prefill透過大規模矩陣乘法並行處理整個提示,使tensor cores飽和。Decode透過記憶體查找逐個產生token,幾乎不使用運算資源。然而大多數團隊在相同的GPU池上執行兩個階段,為64個H100付費,但只從大約20個獲得有意義的工作。
分散式推理由UC San Diego在2024年DistServe論文中首創,將這些工作負載分離到為各自階段最佳化的硬體上。這種方法不是理論性的——Perplexity在生產中執行它,Meta和LinkedIn用它服務流量,NVIDIA圍繞它建構了Dynamo框架。vLLM、SGLang和TensorRT-LLM都原生支援分散。承諾是透過為實際工作負載需求而非最壞情況調整運算規模,實現2-4倍的成本降低。
更廣泛的推理最佳化格局顯示,這種架構轉變在學術論文之外正獲得動力。雖然我在4月份報導了Cursor's Warp Decode聲稱的1.8倍加速——缺乏具體證明——分散式推理透過你可以實際驗證的生產部署提供可測量的成本改進。LLM Inference Handbook指出,並置的prefill和decode會產生排程衝突,運算密集的prefill阻塞記憶體受限的decode,同時增加首token時間和token間延遲。
對於大規模執行推理的開發者,分散需要重新思考部署架構,但提供真實的成本節約。如果你在推理工作負載上燒錢H100預算,硬體利用率不匹配的成本可能超過實現獨立prefill和decode集群的工程努力。
