Zubnet AI學習Wiki › Model Serving
基礎設施

Model Serving

別名:vLLM、TGI、TensorRT-LLM、推理伺服器
在生產環境中運行已訓練 AI 模型的基礎設施和軟體,處理傳入請求、管理 GPU 記憶體、批量處理以提升效率並返回回應。模型服務框架如 vLLM、TGI(Text Generation Inference)和 TensorRT-LLM 處理使 LLM 推理在規模上快速且經濟高效的複雜工程。

為什麼重要

從「我有一個模型」到「我可以同時服務 10,000 個使用者」之間的差距是巨大的。模型服務框架解決 GPU 記憶體管理、請求調度、KV 快取優化和連續批量處理——這些都是難以從頭解決的問題。選擇正確的服務堆疊是生產 AI 中影響力最大的決策之一。

深度解析

vLLM(加州大學柏克萊分校)引入了 PagedAttention——像虛擬記憶體頁面一樣管理 KV 快取以消除碎片化,吞吐量比素樸實作高出 2-4 倍。TGI(Hugging Face)提供生產級伺服器,內建支援多種模型架構、量化和串流。TensorRT-LLM(NVIDIA)使用核心融合和自訂 CUDA 核心專門針對 NVIDIA GPU 優化模型,通常能達到最佳的單 GPU 效能。

服務堆疊

一個生產服務部署通常包含:模型伺服器(vLLM/TGI)、用於負載均衡的反向代理(nginx)、用於流量高峰的請求佇列、用於延遲和吞吐量指標的監控,以及根據需求新增或移除 GPU 實例的自動擴展。一些部署還增加路由器,將簡單請求導向較小的模型、複雜請求導向較大的模型,以優化成本。

自行託管 vs. API

自行託管(運行自己的模型伺服器)和使用提供者 API 之間的決定取決於規模、隱私和成本。低於約 1,000 美元/月的 API 成本,自行託管很少有經濟意義(GPU 租用很昂貴)。超過約 10,000 美元/月,自行託管通常更划算,因為你可以針對特定工作負載進行優化。隱私要求(資料不能離開你的基礎設施)通常會迫使自行託管,無論成本如何。

相關概念

← 所有術語
← Mistral AI Normalization →
ESC