Uma única GPU H100 rodando Llama 70B atinge 92% de utilização durante prefill, depois despenca para 28% durante decode—tudo em milissegundos da mesma requisição. Isso não é um bug, é o descompasso fundamental entre como LLMs funcionam e como os implantamos. Prefill processa prompts inteiros em paralelo através de multiplicações massivas de matrizes que saturam tensor cores. Decode gera tokens um por um através de buscas na memória que mal tocam recursos computacionais. Mesmo assim, a maioria das equipes roda ambas as fases em pools idênticos de GPU, pagando por 64 H100 enquanto obtém trabalho significativo de talvez 20.
Inferência desagregada, pioneira no paper DistServe 2024 da UC San Diego, divide essas cargas de trabalho em hardware separado otimizado para cada fase. A abordagem não é teórica—Perplexity roda em produção, Meta e LinkedIn servem tráfego com ela, e NVIDIA construiu seu framework Dynamo em torno disso. vLLM, SGLang, e TensorRT-LLM todos suportam desagregação nativamente. A promessa é redução de custos de 2-4x ao dimensionar computação para requisitos reais da carga de trabalho ao invés de cenários do pior caso.
O panorama mais amplo de otimização de inferência mostra essa mudança arquitetural ganhando momentum além de papers acadêmicos. Enquanto cobri as alegações do Cursor's Warp Decode sobre acelerações de 1.8x em abril—que careciam de prova concreta—inferência desagregada entrega melhorias mensuráveis de custo com implantações de produção que você pode realmente verificar. O LLM Inference Handbook nota que prefill e decode colocalizados criam conflitos de agendamento onde prefill pesado em computação bloqueia decode limitado por memória, aumentando tanto time-to-first-token quanto latência inter-token.
Para desenvolvedores rodando inferência em escala, desagregação requer repensar sua arquitetura de implantação mas oferece economias reais de custo. Se você está queimando orçamentos H100 em cargas de inferência, o descompasso de utilização de hardware provavelmente está custando mais que o esforço de engenharia para implementar clusters separados de prefill e decode.
