Zubnet AIसीखेंWiki › vLLM
उपकरण

vLLM

एक ओपन-सोर्स LLM सर्विंग इंजन जो PagedAttention और continuous batching के माध्यम से उच्च throughput प्राप्त करता है। vLLM GPU मेमोरी प्रबंधन, request शेड्यूलिंग, और KV cache ऑप्टिमाइज़ेशन की जटिल इंजीनियरिंग को संभालता है, एक OpenAI-compatible API प्रदान करता है जो ओपन मॉडलों (Llama, Mistral, Qwen) को प्रोडक्शन में self-host करना आसान बनाता है।

यह क्यों मायने रखता है

vLLM सबसे लोकप्रिय ओपन-सोर्स LLM सर्विंग समाधान है। यदि आप एक ओपन मॉडल को self-host कर रहे हैं, तो आप शायद vLLM का उपयोग कर रहे हैं (या करना चाहिए)। इसके PagedAttention नवाचार ने भोले कार्यान्वयन की तुलना में सर्विंग throughput को 2–24x बढ़ाया। यह बुनियादी ढांचा लेयर है जो ओपन मॉडलों को प्रोडक्शन उपयोग के लिए व्यावहारिक बनाती है।

गहन अध्ययन

vLLM (Kwon et al., UC Berkeley, 2023) ने LLM सर्विंग में PagedAttention पेश किया। PagedAttention से परे, vLLM लागू करता है: continuous batching (चल रहे batches में नए requests जोड़ना बिना प्रतीक्षा के), prefix caching (सामान्य prompt prefixes के लिए KV cache साझा करना), tensor parallelism (मॉडलों को कई GPUs में विभाजित करना), और speculative decoding (जनरेशन को तेज़ करने के लिए एक draft मॉडल का उपयोग करना)। ये ऑप्टिमाइज़ेशन compose करते हैं, गुणात्मक speedups देते हैं।

उपयोग

vLLM के साथ एक मॉडल deploy करना सीधा है: vllm serve meta-llama/Llama-3-70B --tensor-parallel-size 4 4 GPUs पर एक OpenAI-compatible सर्वर शुरू करता है। एप्लिकेशन किसी भी OpenAI SDK का उपयोग करके base URL बदलकर कनेक्ट करते हैं। यह drop-in compatibility का अर्थ है कि आप OpenAI के API के साथ prototype कर सकते हैं और बिना एप्लिकेशन कोड बदले self-hosted vLLM पर स्विच कर सकते हैं — बस endpoint बदलें।

vLLM बनाम विकल्प

TGI (Hugging Face) टाइट Hugging Face ecosystem integration के साथ समान features प्रदान करता है। TensorRT-LLM (NVIDIA) अधिकतम single-GPU प्रदर्शन के लिए custom CUDA kernels का उपयोग करता है लेकिन NVIDIA हार्डवेयर की आवश्यकता है। SGLang (Berkeley) structured generation और complex prompting patterns पर ध्यान केंद्रित करता है। अधिकांश self-hosting परिदृश्यों के लिए, vLLM अपने प्रदर्शन, व्यापक मॉडल समर्थन, और सक्रिय समुदाय के कारण डिफ़ॉल्ट विकल्प है। विशेष रूप से NVIDIA हार्डवेयर पर अधिकतम throughput के लिए, TensorRT-LLM इसे मात दे सकता है।

संबंधित अवधारणाएँ

← सभी शब्द
← Vision Transformer Voice Cloning →