vLLM (Kwon et al., UC Berkeley, 2023) introduziu PagedAttention no serving de LLM. Além de PagedAttention, vLLM implementa: batching contínuo (adicionando novas requisições a lotes em execução sem esperar), cache de prefixo (compartilhando KV cache para prefixos de prompt comuns), paralelismo de tensor (dividindo modelos entre múltiplas GPUs) e decodificação especulativa (usando um modelo rascunho para acelerar a geração). Essas otimizações se compõem, entregando acelerações multiplicativas.
Fazer deploy de um modelo com vLLM é direto: vllm serve meta-llama/Llama-3-70B --tensor-parallel-size 4 inicia um servidor compatível com OpenAI em 4 GPUs. Aplicações conectam usando qualquer SDK OpenAI mudando a URL base. Essa compatibilidade drop-in significa que você pode prototipar com a API da OpenAI e migrar para vLLM hospedado sem mudar o código da aplicação — apenas mude o endpoint.
TGI (Hugging Face) oferece features similares com integração mais estreita ao ecossistema Hugging Face. TensorRT-LLM (NVIDIA) usa kernels CUDA customizados para máximo desempenho por GPU mas requer hardware NVIDIA. SGLang (Berkeley) foca em geração estruturada e padrões de prompting complexos. Para a maioria dos cenários de self-hosting, vLLM é a escolha padrão devido ao seu desempenho, amplo suporte a modelos e comunidade ativa. Para throughput máximo em hardware NVIDIA especificamente, TensorRT-LLM pode superá-lo.