Zubnet AIAprenderWiki › vLLM
Ferramentas

vLLM

Um engine open-source de serving de LLM que alcança alto throughput através de PagedAttention e batching contínuo. O vLLM lida com a engenharia complexa de gerenciamento de memória GPU, agendamento de requisições e otimização de KV cache, fornecendo uma API compatível com OpenAI que facilita hospedar modelos abertos (Llama, Mistral, Qwen) em produção.

Por que isso importa

vLLM é a solução open-source mais popular para serving de LLM. Se você está hospedando um modelo aberto por conta própria, provavelmente está usando vLLM (ou deveria). Sua inovação PagedAttention aumentou o throughput de serving em 2–24x comparado a implementações ingênuas. É a camada de infraestrutura que torna modelos abertos práticos para uso em produção.

Em profundidade

vLLM (Kwon et al., UC Berkeley, 2023) introduziu PagedAttention no serving de LLM. Além de PagedAttention, vLLM implementa: batching contínuo (adicionando novas requisições a lotes em execução sem esperar), cache de prefixo (compartilhando KV cache para prefixos de prompt comuns), paralelismo de tensor (dividindo modelos entre múltiplas GPUs) e decodificação especulativa (usando um modelo rascunho para acelerar a geração). Essas otimizações se compõem, entregando acelerações multiplicativas.

Uso

Fazer deploy de um modelo com vLLM é direto: vllm serve meta-llama/Llama-3-70B --tensor-parallel-size 4 inicia um servidor compatível com OpenAI em 4 GPUs. Aplicações conectam usando qualquer SDK OpenAI mudando a URL base. Essa compatibilidade drop-in significa que você pode prototipar com a API da OpenAI e migrar para vLLM hospedado sem mudar o código da aplicação — apenas mude o endpoint.

vLLM vs. Alternativas

TGI (Hugging Face) oferece features similares com integração mais estreita ao ecossistema Hugging Face. TensorRT-LLM (NVIDIA) usa kernels CUDA customizados para máximo desempenho por GPU mas requer hardware NVIDIA. SGLang (Berkeley) foca em geração estruturada e padrões de prompting complexos. Para a maioria dos cenários de self-hosting, vLLM é a escolha padrão devido ao seu desempenho, amplo suporte a modelos e comunidade ativa. Para throughput máximo em hardware NVIDIA especificamente, TensorRT-LLM pode superá-lo.

Conceitos relacionados

← Todos os termos
← Viés Vocabulário →