vLLM (UC Berkeley) introduziu PagedAttention — gerenciando KV cache como páginas de memória virtual para eliminar fragmentação, alcançando 2–4x maior throughput do que implementações ingênuas. TGI (Hugging Face) fornece um servidor pronto para produção com suporte nativo para muitas arquiteturas de modelo, quantização e streaming. TensorRT-LLM (NVIDIA) otimiza modelos especificamente para GPUs NVIDIA usando fusão de kernels e kernels CUDA customizados, frequentemente alcançando o melhor desempenho por GPU.
Um deploy de serving em produção tipicamente inclui: um servidor de modelo (vLLM/TGI), um proxy reverso para balanceamento de carga (nginx), uma fila de requisições para picos de tráfego, monitoramento de métricas de latência e throughput, e auto-scaling para adicionar ou remover instâncias de GPU com base na demanda. Alguns deploys adicionam um roteador que direciona requisições simples para modelos menores e requisições complexas para maiores, otimizando custo.
A decisão entre self-hosting (rodar seu próprio servidor de modelo) e usar a API de um provedor depende de escala, privacidade e custo. Abaixo de ~$1.000/mês em custos de API, self-hosting raramente faz sentido economicamente (aluguel de GPU é caro). Acima de ~$10.000/mês, self-hosting frequentemente compensa porque você pode otimizar para sua carga de trabalho específica. Requisitos de privacidade (dados não podem sair da sua infraestrutura) frequentemente forçam self-hosting independente do custo.