Zubnet AI学习Wiki › Model Serving
基础设施

Model Serving

别名:vLLM、TGI、TensorRT-LLM、推理服务器
在生产中运行训练好的AI模型的基础设施和软件,处理传入请求、管理GPU内存、批量处理以提高效率并返回响应。vLLM、TGI(文本生成推理)和TensorRT-LLM等模型服务框架解决了使LLM推理在大规模上快速且经济高效的复杂工程问题。

为什么重要

从“我有一个模型”到“我可以同时服务10000个用户”之间的差距是巨大的。模型服务框架解决了GPU内存管理、请求调度、KV缓存优化和连续批处理——这些问题从零开始解决很困难。选择正确的服务栈是生产AI中最具杠杆效应的决策之一。

深度解析

vLLM(加州大学伯克利分校)引入了PagedAttention——像虚拟内存页一样管理KV缓存以消除碎片化,比朴素实现的吞吐量提高2至4倍。TGI(Hugging Face)提供了一个生产就绪的服务器,内置对多种模型架构、量化和流式传输的支持。TensorRT-LLM(NVIDIA)使用内核融合和自定义CUDA内核专门为NVIDIA GPU优化模型,通常实现最佳的单GPU性能。

服务栈

生产级服务部署通常包括:模型服务器(vLLM/TGI)、用于负载均衡的反向代理(nginx)、用于应对流量峰值的请求队列、用于延迟和吞吐量指标的监控,以及根据需求添加或移除GPU实例的自动缩放。一些部署还添加路由器,将简单请求导向较小的模型,复杂请求导向较大的模型,以优化成本。

自托管 vs. API

在自托管(运行自己的模型服务器)和使用提供商的API之间的选择取决于规模、隐私和成本。在API成本低于约1000美元/月时,自托管很少具有经济意义(GPU租赁很贵)。超过约10000美元/月时,自托管通常更划算,因为你可以针对特定工作负载进行优化。隐私要求(数据不能离开你的基础设施)往往迫使自托管,无论成本如何。

相关概念

← 所有术语
← Mistral AI Normalization →