vLLM(加州大学伯克利分校)引入了PagedAttention——像虚拟内存页一样管理KV缓存以消除碎片化,比朴素实现的吞吐量提高2至4倍。TGI(Hugging Face)提供了一个生产就绪的服务器,内置对多种模型架构、量化和流式传输的支持。TensorRT-LLM(NVIDIA)使用内核融合和自定义CUDA内核专门为NVIDIA GPU优化模型,通常实现最佳的单GPU性能。
生产级服务部署通常包括:模型服务器(vLLM/TGI)、用于负载均衡的反向代理(nginx)、用于应对流量峰值的请求队列、用于延迟和吞吐量指标的监控,以及根据需求添加或移除GPU实例的自动缩放。一些部署还添加路由器,将简单请求导向较小的模型,复杂请求导向较大的模型,以优化成本。
在自托管(运行自己的模型服务器)和使用提供商的API之间的选择取决于规模、隐私和成本。在API成本低于约1000美元/月时,自托管很少具有经济意义(GPU租赁很贵)。超过约10000美元/月时,自托管通常更划算,因为你可以针对特定工作负载进行优化。隐私要求(数据不能离开你的基础设施)往往迫使自托管,无论成本如何。