vLLM (Kwon et al., UC Berkeley, 2023) ने LLM सर्विंग में PagedAttention पेश किया। PagedAttention से परे, vLLM लागू करता है: continuous batching (चल रहे batches में नए requests जोड़ना बिना प्रतीक्षा के), prefix caching (सामान्य prompt prefixes के लिए KV cache साझा करना), tensor parallelism (मॉडलों को कई GPUs में विभाजित करना), और speculative decoding (जनरेशन को तेज़ करने के लिए एक draft मॉडल का उपयोग करना)। ये ऑप्टिमाइज़ेशन compose करते हैं, गुणात्मक speedups देते हैं।
vLLM के साथ एक मॉडल deploy करना सीधा है: vllm serve meta-llama/Llama-3-70B --tensor-parallel-size 4 4 GPUs पर एक OpenAI-compatible सर्वर शुरू करता है। एप्लिकेशन किसी भी OpenAI SDK का उपयोग करके base URL बदलकर कनेक्ट करते हैं। यह drop-in compatibility का अर्थ है कि आप OpenAI के API के साथ prototype कर सकते हैं और बिना एप्लिकेशन कोड बदले self-hosted vLLM पर स्विच कर सकते हैं — बस endpoint बदलें।
TGI (Hugging Face) टाइट Hugging Face ecosystem integration के साथ समान features प्रदान करता है। TensorRT-LLM (NVIDIA) अधिकतम single-GPU प्रदर्शन के लिए custom CUDA kernels का उपयोग करता है लेकिन NVIDIA हार्डवेयर की आवश्यकता है। SGLang (Berkeley) structured generation और complex prompting patterns पर ध्यान केंद्रित करता है। अधिकांश self-hosting परिदृश्यों के लिए, vLLM अपने प्रदर्शन, व्यापक मॉडल समर्थन, और सक्रिय समुदाय के कारण डिफ़ॉल्ट विकल्प है। विशेष रूप से NVIDIA हार्डवेयर पर अधिकतम throughput के लिए, TensorRT-LLM इसे मात दे सकता है।