Zubnet AIAprenderWiki › Serving de Modelo
Infraestrutura

Serving de Modelo

Também conhecido como: vLLM, TGI, TensorRT-LLM, Servidor de Inferência
A infraestrutura e software que executa modelos de IA treinados em produção, lidando com requisições de entrada, gerenciando memória de GPU, agrupando para eficiência e retornando respostas. Frameworks de serving como vLLM, TGI (Text Generation Inference) e TensorRT-LLM lidam com a engenharia complexa de tornar a inferência de LLMs rápida e economicamente viável em escala.

Por que isso importa

A distância entre "tenho um modelo" e "consigo atender 10.000 usuários simultaneamente" é enorme. Frameworks de serving resolvem gerenciamento de memória de GPU, escalonamento de requisições, otimização de KV cache e continuous batching — problemas difíceis de resolver do zero. Escolher o stack de serving certo é uma das decisões de maior alavancagem em IA em produção.

Em profundidade

vLLM (UC Berkeley) introduziu PagedAttention — gerenciando KV cache como páginas de memória virtual para eliminar fragmentação, alcançando 2–4x maior throughput do que implementações ingênuas. TGI (Hugging Face) fornece um servidor pronto para produção com suporte nativo para muitas arquiteturas de modelo, quantização e streaming. TensorRT-LLM (NVIDIA) otimiza modelos especificamente para GPUs NVIDIA usando fusão de kernels e kernels CUDA customizados, frequentemente alcançando o melhor desempenho por GPU.

O Stack de Serving

Um deploy de serving em produção tipicamente inclui: um servidor de modelo (vLLM/TGI), um proxy reverso para balanceamento de carga (nginx), uma fila de requisições para picos de tráfego, monitoramento de métricas de latência e throughput, e auto-scaling para adicionar ou remover instâncias de GPU com base na demanda. Alguns deploys adicionam um roteador que direciona requisições simples para modelos menores e requisições complexas para maiores, otimizando custo.

Self-Hosting vs. API

A decisão entre self-hosting (rodar seu próprio servidor de modelo) e usar a API de um provedor depende de escala, privacidade e custo. Abaixo de ~$1.000/mês em custos de API, self-hosting raramente faz sentido economicamente (aluguel de GPU é caro). Acima de ~$10.000/mês, self-hosting frequentemente compensa porque você pode otimizar para sua carga de trabalho específica. Requisitos de privacidade (dados não podem sair da sua infraestrutura) frequentemente forçam self-hosting independente do custo.

Conceitos relacionados

← Todos os termos
← Self-Attention Sigmoid →