Model Serving: परिभाषा और अर्थ — AI विकी

वह बुनियादी ढांचा और सॉफ़्टवेयर जो प्रशिक्षित AI मॉडल को प्रोडक्शन में चलाता है, आने वाले अनुरोधों को संभालता है, GPU मेमोरी प्रबंधित करता है, दक्षता के लिए batching करता है, और प्रतिक्रियाएँ लौटाता है। vLLM, TGI (Text Generation Inference), और TensorRT-LLM जैसे model serving frameworks LLM inference को बड़े पैमाने पर तेज़ और लागत-प्रभावी बनाने की जटिल इंजीनियरिंग को संभालते हैं।

यह क्यों मायने रखता है

"मेरे पास एक मॉडल है" और "मैं एक साथ 10,000 उपयोगकर्ताओं की सेवा कर सकता हूँ" के बीच का अंतर विशाल है। Model serving frameworks GPU मेमोरी प्रबंधन, अनुरोध शेड्यूलिंग, KV cache ऑप्टिमाइज़ेशन, और continuous batching को हल करते हैं — ऐसी समस्याएँ जो शून्य से हल करना कठिन हैं। सही serving स्टैक चुनना प्रोडक्शन AI में सबसे उच्च-लीवरेज निर्णयों में से एक है।

गहन अध्ययन

vLLM (UC Berkeley) ने PagedAttention पेश किया — KV cache को वर्चुअल मेमोरी पेज की तरह प्रबंधित करना ताकि fragmentation को समाप्त किया जा सके, सामान्य implementations की तुलना में 2–4x अधिक throughput प्राप्त करना। TGI (Hugging Face) कई मॉडल आर्किटेक्चर, quantization, और streaming के लिए अंतर्निहित समर्थन के साथ एक प्रोडक्शन-तैयार सर्वर प्रदान करता है। TensorRT-LLM (NVIDIA) kernel fusion और कस्टम CUDA kernels का उपयोग करके विशेष रूप से NVIDIA GPUs के लिए मॉडल ऑप्टिमाइज़ करता है, अक्सर सबसे अच्छा सिंगल-GPU प्रदर्शन प्राप्त करता है।

Serving स्टैक

एक प्रोडक्शन serving deployment में आम तौर पर शामिल हैं: एक मॉडल सर्वर (vLLM/TGI), लोड बैलेंसिंग के लिए एक रिवर्स प्रॉक्सी (nginx), ट्रैफ़िक स्पाइक्स के लिए एक अनुरोध कतार, latency और throughput मेट्रिक्स के लिए मॉनिटरिंग, और माँग के आधार पर GPU instances जोड़ने या हटाने के लिए auto-scaling। कुछ deployments एक router जोड़ते हैं जो सरल अनुरोधों को छोटे मॉडल और जटिल अनुरोधों को बड़े मॉडल की ओर निर्देशित करता है, लागत ऑप्टिमाइज़ करते हुए।

Self-Hosting बनाम API

Self-hosting (अपना स्वयं का मॉडल सर्वर चलाना) और प्रदाता के API का उपयोग करने के बीच का निर्णय पैमाने, गोपनीयता और लागत पर निर्भर करता है। API लागत में ~$1,000/माह से नीचे, self-hosting शायद ही कभी आर्थिक रूप से समझ में आता है (GPU किराये पर महंगा है)। ~$10,000/माह से ऊपर, self-hosting अक्सर जीतता है क्योंकि आप अपने विशिष्ट workload के लिए ऑप्टिमाइज़ कर सकते हैं। गोपनीयता आवश्यकताएँ (डेटा आपके बुनियादी ढांचे से बाहर नहीं जा सकता) अक्सर लागत की परवाह किए बिना self-hosting को मजबूर करती हैं।

Model Serving

यह क्यों मायने रखता है

गहन अध्ययन

Serving स्टैक

Self-Hosting बनाम API

संबंधित अवधारणाएँ