Cloudflare lança Infire: inferência com prefill/decode separados para modelos de um trilhão de parâmetros

A Cloudflare colocou um motor de inferência LLM próprio em produção em toda a sua rede global. O motor se chama Infire, a escolha arquitetural por baixo é a desagregação prefill/decode — separar o processamento de entrada e a geração de saída em máquinas diferentes otimizadas para cada — e o resultado é que a Cloudflare agora hospeda modelos abertos em escala de trilhão de parâmetros como Kimi K2.5 (1T+ params, ~560GB em disco) na borda, junto com Llama 4 Scout. O interessante não é o lançamento; é que um dos maiores CDNs se juntou ao pequeno grupo de operadores que rodam seu próprio stack de inferência não-vLLM, não-SGLang em escala.

O split P/D é a escolha arquitetural que carrega o peso. O prefill é limitado por compute: processa o prompt de entrada e preenche o cache KV. O decode é limitado por memória: lê o cache KV e emite um token por vez. Colocar as duas etapas na mesma máquina significa que aquela que não é o gargalo está desperdiçando hardware. O Infire separa as duas em máquinas otimizadas para cada perfil. Em cima disso, o Infire combina paralelismo pipeline (shardar entre GPUs por camada do modelo) com paralelismo tensor (shardar dentro de camadas por tensor), com o objetivo explícito de impedir que os GPUs de uma etapa passem fome enquanto outra etapa executa. As pegadas de hardware são concretas: Kimi K2.5 precisa de pelo menos 8 H100 (o modelo é ~560GB; o resto do HBM vai para o cache KV); Llama 4 Scout cabe em 2 H200 com capacidade de contexto substancial sobrando.

A segunda peça é o Unweight, o sistema de compressão de pesos da Cloudflare que reduz os pesos do modelo em 15-22% sem perda de acurácia, cortando a quantidade de dados movidos entre GPUs durante inferência. Em escala de trilhão, movimento de pesos é uma dimensão de custo real — cada ponto percentual a menos nos bytes carregados é watts reais e latência real. A imagem maior: a Cloudflare está se posicionando para hospedar modelos abertos em escala fronteira como uma camada de infraestrutura genérica, do mesmo jeito que hospedam ativos estáticos. Se Kimi K2.5 e Llama 4 Scout rodam na Cloudflare com números de cold start e TTFT críveis, a matemática custo-por-token contra alugar seu próprio cluster H100 muda. A economia de wrappers ganha um novo substrato, e "onde eu rodo esse modelo 1T" para de ser um projeto de aquisição.

Se você entrega com modelos abertos em escala fronteira e não quer operar um pool de GPU, Workers AI / Infire está numa categoria competitiva diferente do que estava há um ano — teste a mesma carga lá versus seu provedor atual, com TTFT e custo-por-token como a comparação que importa, especialmente para traces longos de agentes programadores. Se você opera seu próprio stack de inferência, o padrão de desagregação P/D é o take-away; paralelismo pipeline + tensor em tandem (em vez de escolher um) é a nota de implementação. O Unweight não é aberto até onde consigo ver, então compressão de pesos segue sendo uma decisão build-or-buy. A pressão competitiva sobre vLLM e SGLang para se manterem no topo da classe acabou de ficar mais real.

Cloudflare lança Infire: inferência com prefill/decode separados para modelos de um trilhão de parâmetros

Mais notícias