vLLM(加州大學柏克萊分校)引入了 PagedAttention——像虛擬記憶體頁面一樣管理 KV 快取以消除碎片化,吞吐量比素樸實作高出 2-4 倍。TGI(Hugging Face)提供生產級伺服器,內建支援多種模型架構、量化和串流。TensorRT-LLM(NVIDIA)使用核心融合和自訂 CUDA 核心專門針對 NVIDIA GPU 優化模型,通常能達到最佳的單 GPU 效能。
一個生產服務部署通常包含:模型伺服器(vLLM/TGI)、用於負載均衡的反向代理(nginx)、用於流量高峰的請求佇列、用於延遲和吞吐量指標的監控,以及根據需求新增或移除 GPU 實例的自動擴展。一些部署還增加路由器,將簡單請求導向較小的模型、複雜請求導向較大的模型,以優化成本。
自行託管(運行自己的模型伺服器)和使用提供者 API 之間的決定取決於規模、隱私和成本。低於約 1,000 美元/月的 API 成本,自行託管很少有經濟意義(GPU 租用很昂貴)。超過約 10,000 美元/月,自行託管通常更划算,因為你可以針對特定工作負載進行優化。隱私要求(資料不能離開你的基礎設施)通常會迫使自行託管,無論成本如何。