Zubnet AIAprenderWiki › Inferência
Infraestrutura

Inferência

O processo de executar um modelo treinado para gerar saídas. Treinamento é aprender; inference é usar o que foi aprendido. Toda vez que você envia um prompt ao Claude ou gera uma imagem com Stable Diffusion, isso é inference. É o que custa horas de GPU aos provedores e o que você paga por token.

Por que isso importa

Custo e velocidade de inference determinam a economia dos produtos de IA. Inference mais rápida = menor latência = melhor experiência do usuário. Inference mais barata = preços menores = adoção mais ampla. Toda a indústria de quantização e otimização existe para tornar a inference mais eficiente.

Em profundidade

Para large language models, a inference acontece em duas fases distintas, e entendê-las explica a maioria das características de desempenho que você vai observar. A primeira fase é chamada de "prefill" ou "processamento de prompt" — o modelo lê todo o seu prompt de entrada e constrói seu estado interno (o KV cache). Essa fase é limitada por computação e se beneficia do paralelismo da GPU porque todos os tokens de entrada podem ser processados simultaneamente. A segunda fase é "decode" ou "geração" — o modelo produz tokens de saída um de cada vez, cada um dependendo de todos os tokens anteriores. Essa fase é limitada pela largura de banda de memória porque o modelo precisa ler seus pesos da VRAM para cada token, mas faz relativamente pouca computação por leitura. É por isso que Time to First Token (TTFT) e tokens por segundo são medidos separadamente: eles refletem gargalos fundamentalmente diferentes.

Throughput vs. Latência

A economia da inference é dominada por um conceito chamado "throughput vs. latência". Se você está servindo um chatbot onde um usuário está esperando por uma resposta, você quer baixa latência — entregar aquele primeiro token rápido. Mas se está rodando processamento em lote (resumindo 10.000 documentos durante a noite), você quer alto throughput — processar o máximo de tokens por segundo possível, mesmo que cada requisição individual seja mais lenta. Motores de inference como vLLM e TensorRT-LLM usam uma técnica chamada "continuous batching" para agrupar dinamicamente múltiplas requisições, o que melhora dramaticamente o throughput. Uma única H100 pode gerar 40 tokens/segundo para uma requisição, mas com batching inteligente, a mesma GPU pode servir mais de 20 usuários simultâneos com latência aceitável porque a largura de banda de memória é compartilhada de forma mais eficiente.

O Panorama do Serving

O panorama do serving de inference se fragmentou em abordagens distintas. Provedores de API em nuvem (Anthropic, OpenAI, Google) operam clusters massivos de GPUs e vendem inference como serviço, cobrado por token. Provedores focados em inference como a Groq apostam em hardware customizado — a LPU (Language Processing Unit) da Groq é especificamente projetada para a fase sequencial de decode e alcança geração de tokens notavelmente rápida. No lado open-source, o llama.cpp trouxe inference de LLM para CPUs e GPUs de consumo através de quantização agressiva, e ferramentas como o Ollama encapsularam isso em um pacote amigável. Para self-hosting em produção, o vLLM com PagedAttention se tornou a escolha padrão, oferecendo throughput que rivaliza com ofertas comerciais quando bem configurado.

A Realidade dos Custos

Um equívoco comum é que inference é "barata" comparada ao treinamento. Para uma única requisição, sim — gerar uma resposta custa uma fração de centavo. Mas inference é contínua. Um chatbot popular lida com milhões de requisições por dia, indefinidamente. A OpenAI supostamente gasta mais com inference do que com treinamento neste ponto. É por isso que otimização de inference é uma área tão quente: speculative decoding (usar um modelo "rascunho" pequeno para prever o que o modelo grande vai dizer), compressão de KV cache e prefix caching (reutilizar computação para prompts de sistema compartilhados) todos visam extrair mais respostas do mesmo hardware. Cada ponto percentual de melhoria de eficiência se traduz diretamente em milhões de dólares economizados em escala.

Conceitos relacionados

← Todos os termos
← Ideogram Jina AI →
ESC