Zubnet AIAprenderWiki › vLLM
Herramientas

vLLM

También conocido como:
Un motor de servicio de LLMs de código abierto que logra alto rendimiento mediante PagedAttention y batching continuo. vLLM maneja la ingeniería compleja de gestión de memoria GPU, programación de solicitudes y optimización del KV cache, proporcionando una API compatible con OpenAI que facilita alojar modelos abiertos (Llama, Mistral, Qwen) en producción.

Por qué importa

vLLM es la solución de servicio de LLMs de código abierto más popular. Si alojas un modelo abierto por tu cuenta, probablemente estás usando vLLM (o deberías). Su innovación PagedAttention aumentó el rendimiento de servicio 2–24x comparado con implementaciones ingenuas. Es la capa de infraestructura que hace que los modelos abiertos sean prácticos para uso en producción.

En profundidad

vLLM (Kwon et al., UC Berkeley, 2023) introdujo PagedAttention al servicio de LLMs. Más allá de PagedAttention, vLLM implementa: batching continuo (agregar nuevas solicitudes a lotes en ejecución sin esperar), cacheo de prefijos (compartir KV cache para prefijos de prompt comunes), paralelismo de tensores (dividir modelos entre múltiples GPUs) y decodificación especulativa (usar un modelo borrador para acelerar la generación). Estas optimizaciones se componen, ofreciendo aceleraciones multiplicativas.

Uso

Desplegar un modelo con vLLM es sencillo: vllm serve meta-llama/Llama-3-70B --tensor-parallel-size 4 inicia un servidor compatible con OpenAI en 4 GPUs. Las aplicaciones se conectan usando cualquier SDK de OpenAI cambiando la URL base. Esta compatibilidad directa significa que puedes prototipar con la API de OpenAI y cambiar a vLLM auto-alojado sin cambiar el código de la aplicación — solo cambia el endpoint.

vLLM vs. alternativas

TGI (Hugging Face) ofrece características similares con una integración más estrecha del ecosistema Hugging Face. TensorRT-LLM (NVIDIA) usa kernels CUDA personalizados para máximo rendimiento en una sola GPU pero requiere hardware NVIDIA. SGLang (Berkeley) se enfoca en generación estructurada y patrones de prompting complejos. Para la mayoría de los escenarios de auto-alojamiento, vLLM es la opción por defecto debido a su rendimiento, amplio soporte de modelos y comunidad activa. Para máximo rendimiento en hardware NVIDIA específicamente, TensorRT-LLM puede superarlo ligeramente.

Conceptos relacionados

← Todos los términos