vLLM (UC Berkeley) ने PagedAttention पेश किया — KV cache को वर्चुअल मेमोरी पेज की तरह प्रबंधित करना ताकि fragmentation को समाप्त किया जा सके, सामान्य implementations की तुलना में 2–4x अधिक throughput प्राप्त करना। TGI (Hugging Face) कई मॉडल आर्किटेक्चर, quantization, और streaming के लिए अंतर्निहित समर्थन के साथ एक प्रोडक्शन-तैयार सर्वर प्रदान करता है। TensorRT-LLM (NVIDIA) kernel fusion और कस्टम CUDA kernels का उपयोग करके विशेष रूप से NVIDIA GPUs के लिए मॉडल ऑप्टिमाइज़ करता है, अक्सर सबसे अच्छा सिंगल-GPU प्रदर्शन प्राप्त करता है।
एक प्रोडक्शन serving deployment में आम तौर पर शामिल हैं: एक मॉडल सर्वर (vLLM/TGI), लोड बैलेंसिंग के लिए एक रिवर्स प्रॉक्सी (nginx), ट्रैफ़िक स्पाइक्स के लिए एक अनुरोध कतार, latency और throughput मेट्रिक्स के लिए मॉनिटरिंग, और माँग के आधार पर GPU instances जोड़ने या हटाने के लिए auto-scaling। कुछ deployments एक router जोड़ते हैं जो सरल अनुरोधों को छोटे मॉडल और जटिल अनुरोधों को बड़े मॉडल की ओर निर्देशित करता है, लागत ऑप्टिमाइज़ करते हुए।
Self-hosting (अपना स्वयं का मॉडल सर्वर चलाना) और प्रदाता के API का उपयोग करने के बीच का निर्णय पैमाने, गोपनीयता और लागत पर निर्भर करता है। API लागत में ~$1,000/माह से नीचे, self-hosting शायद ही कभी आर्थिक रूप से समझ में आता है (GPU किराये पर महंगा है)। ~$10,000/माह से ऊपर, self-hosting अक्सर जीतता है क्योंकि आप अपने विशिष्ट workload के लिए ऑप्टिमाइज़ कर सकते हैं। गोपनीयता आवश्यकताएँ (डेटा आपके बुनियादी ढांचे से बाहर नहीं जा सकता) अक्सर लागत की परवाह किए बिना self-hosting को मजबूर करती हैं।