Zubnet AIसीखेंWiki › Model Serving
बुनियादी ढांचा

Model Serving

इसे भी कहा जाता है: vLLM, TGI, TensorRT-LLM, Inference Server
वह बुनियादी ढांचा और सॉफ़्टवेयर जो प्रशिक्षित AI मॉडल को प्रोडक्शन में चलाता है, आने वाले अनुरोधों को संभालता है, GPU मेमोरी प्रबंधित करता है, दक्षता के लिए batching करता है, और प्रतिक्रियाएँ लौटाता है। vLLM, TGI (Text Generation Inference), और TensorRT-LLM जैसे model serving frameworks LLM inference को बड़े पैमाने पर तेज़ और लागत-प्रभावी बनाने की जटिल इंजीनियरिंग को संभालते हैं।

यह क्यों मायने रखता है

"मेरे पास एक मॉडल है" और "मैं एक साथ 10,000 उपयोगकर्ताओं की सेवा कर सकता हूँ" के बीच का अंतर विशाल है। Model serving frameworks GPU मेमोरी प्रबंधन, अनुरोध शेड्यूलिंग, KV cache ऑप्टिमाइज़ेशन, और continuous batching को हल करते हैं — ऐसी समस्याएँ जो शून्य से हल करना कठिन हैं। सही serving स्टैक चुनना प्रोडक्शन AI में सबसे उच्च-लीवरेज निर्णयों में से एक है।

गहन अध्ययन

vLLM (UC Berkeley) ने PagedAttention पेश किया — KV cache को वर्चुअल मेमोरी पेज की तरह प्रबंधित करना ताकि fragmentation को समाप्त किया जा सके, सामान्य implementations की तुलना में 2–4x अधिक throughput प्राप्त करना। TGI (Hugging Face) कई मॉडल आर्किटेक्चर, quantization, और streaming के लिए अंतर्निहित समर्थन के साथ एक प्रोडक्शन-तैयार सर्वर प्रदान करता है। TensorRT-LLM (NVIDIA) kernel fusion और कस्टम CUDA kernels का उपयोग करके विशेष रूप से NVIDIA GPUs के लिए मॉडल ऑप्टिमाइज़ करता है, अक्सर सबसे अच्छा सिंगल-GPU प्रदर्शन प्राप्त करता है।

Serving स्टैक

एक प्रोडक्शन serving deployment में आम तौर पर शामिल हैं: एक मॉडल सर्वर (vLLM/TGI), लोड बैलेंसिंग के लिए एक रिवर्स प्रॉक्सी (nginx), ट्रैफ़िक स्पाइक्स के लिए एक अनुरोध कतार, latency और throughput मेट्रिक्स के लिए मॉनिटरिंग, और माँग के आधार पर GPU instances जोड़ने या हटाने के लिए auto-scaling। कुछ deployments एक router जोड़ते हैं जो सरल अनुरोधों को छोटे मॉडल और जटिल अनुरोधों को बड़े मॉडल की ओर निर्देशित करता है, लागत ऑप्टिमाइज़ करते हुए।

Self-Hosting बनाम API

Self-hosting (अपना स्वयं का मॉडल सर्वर चलाना) और प्रदाता के API का उपयोग करने के बीच का निर्णय पैमाने, गोपनीयता और लागत पर निर्भर करता है। API लागत में ~$1,000/माह से नीचे, self-hosting शायद ही कभी आर्थिक रूप से समझ में आता है (GPU किराये पर महंगा है)। ~$10,000/माह से ऊपर, self-hosting अक्सर जीतता है क्योंकि आप अपने विशिष्ट workload के लिए ऑप्टिमाइज़ कर सकते हैं। गोपनीयता आवश्यकताएँ (डेटा आपके बुनियादी ढांचे से बाहर नहीं जा सकता) अक्सर लागत की परवाह किए बिना self-hosting को मजबूर करती हैं।

संबंधित अवधारणाएँ

← सभी शब्द
← Model Registry Moonshot AI →