Model Serving：定義與含義 — AI 維基

在生產環境中運行已訓練 AI 模型的基礎設施和軟體，處理傳入請求、管理 GPU 記憶體、批量處理以提升效率並返回回應。模型服務框架如 vLLM、TGI（Text Generation Inference）和 TensorRT-LLM 處理使 LLM 推理在規模上快速且經濟高效的複雜工程。

為什麼重要

從「我有一個模型」到「我可以同時服務 10,000 個使用者」之間的差距是巨大的。模型服務框架解決 GPU 記憶體管理、請求調度、KV 快取優化和連續批量處理——這些都是難以從頭解決的問題。選擇正確的服務堆疊是生產 AI 中影響力最大的決策之一。

深度解析

vLLM（加州大學柏克萊分校）引入了 PagedAttention——像虛擬記憶體頁面一樣管理 KV 快取以消除碎片化，吞吐量比素樸實作高出 2-4 倍。TGI（Hugging Face）提供生產級伺服器，內建支援多種模型架構、量化和串流。TensorRT-LLM（NVIDIA）使用核心融合和自訂 CUDA 核心專門針對 NVIDIA GPU 優化模型，通常能達到最佳的單 GPU 效能。

服務堆疊

一個生產服務部署通常包含：模型伺服器（vLLM/TGI）、用於負載均衡的反向代理（nginx）、用於流量高峰的請求佇列、用於延遲和吞吐量指標的監控，以及根據需求新增或移除 GPU 實例的自動擴展。一些部署還增加路由器，將簡單請求導向較小的模型、複雜請求導向較大的模型，以優化成本。

自行託管 vs. API

自行託管（運行自己的模型伺服器）和使用提供者 API 之間的決定取決於規模、隱私和成本。低於約 1,000 美元/月的 API 成本，自行託管很少有經濟意義（GPU 租用很昂貴）。超過約 10,000 美元/月，自行託管通常更划算，因為你可以針對特定工作負載進行優化。隱私要求（資料不能離開你的基礎設施）通常會迫使自行託管，無論成本如何。

Model Serving

為什麼重要

深度解析

服務堆疊

自行託管 vs. API

相關概念