Model Serving（模型服务）：定义与含义 — AI 维基

在生产中运行训练好的AI模型的基础设施和软件，处理传入请求、管理GPU内存、批量处理以提高效率并返回响应。vLLM、TGI（文本生成推理）和TensorRT-LLM等模型服务框架解决了使LLM推理在大规模上快速且经济高效的复杂工程问题。

为什么重要

从“我有一个模型”到“我可以同时服务10000个用户”之间的差距是巨大的。模型服务框架解决了GPU内存管理、请求调度、KV缓存优化和连续批处理——这些问题从零开始解决很困难。选择正确的服务栈是生产AI中最具杠杆效应的决策之一。

深度解析

vLLM（加州大学伯克利分校）引入了PagedAttention——像虚拟内存页一样管理KV缓存以消除碎片化，比朴素实现的吞吐量提高2至4倍。TGI（Hugging Face）提供了一个生产就绪的服务器，内置对多种模型架构、量化和流式传输的支持。TensorRT-LLM（NVIDIA）使用内核融合和自定义CUDA内核专门为NVIDIA GPU优化模型，通常实现最佳的单GPU性能。

服务栈

生产级服务部署通常包括：模型服务器（vLLM/TGI）、用于负载均衡的反向代理（nginx）、用于应对流量峰值的请求队列、用于延迟和吞吐量指标的监控，以及根据需求添加或移除GPU实例的自动缩放。一些部署还添加路由器，将简单请求导向较小的模型，复杂请求导向较大的模型，以优化成本。

自托管 vs. API

在自托管（运行自己的模型服务器）和使用提供商的API之间的选择取决于规模、隐私和成本。在API成本低于约1000美元/月时，自托管很少具有经济意义（GPU租赁很贵）。超过约10000美元/月时，自托管通常更划算，因为你可以针对特定工作负载进行优化。隐私要求（数据不能离开你的基础设施）往往迫使自托管，无论成本如何。

Model Serving

为什么重要

深度解析

服务栈

自托管 vs. API

相关概念