vLLM (Kwon et al., UC Berkeley, 2023) introdujo PagedAttention al servicio de LLMs. Más allá de PagedAttention, vLLM implementa: batching continuo (agregar nuevas solicitudes a lotes en ejecución sin esperar), cacheo de prefijos (compartir KV cache para prefijos de prompt comunes), paralelismo de tensores (dividir modelos entre múltiples GPUs) y decodificación especulativa (usar un modelo borrador para acelerar la generación). Estas optimizaciones se componen, ofreciendo aceleraciones multiplicativas.
Desplegar un modelo con vLLM es sencillo: vllm serve meta-llama/Llama-3-70B --tensor-parallel-size 4 inicia un servidor compatible con OpenAI en 4 GPUs. Las aplicaciones se conectan usando cualquier SDK de OpenAI cambiando la URL base. Esta compatibilidad directa significa que puedes prototipar con la API de OpenAI y cambiar a vLLM auto-alojado sin cambiar el código de la aplicación — solo cambia el endpoint.
TGI (Hugging Face) ofrece características similares con una integración más estrecha del ecosistema Hugging Face. TensorRT-LLM (NVIDIA) usa kernels CUDA personalizados para máximo rendimiento en una sola GPU pero requiere hardware NVIDIA. SGLang (Berkeley) se enfoca en generación estructurada y patrones de prompting complejos. Para la mayoría de los escenarios de auto-alojamiento, vLLM es la opción por defecto debido a su rendimiento, amplio soporte de modelos y comunidad activa. Para máximo rendimiento en hardware NVIDIA específicamente, TensorRT-LLM puede superarlo ligeramente.