O TechCrunch reportou na sexta-feira que a Meta assinou um acordo por milhões de CPUs Amazon Web Services Graviton, especificamente enquadrados como capacidade para cargas de IA agentic em vez de treinamento ou inferência de modelo. O acordo se soma ao acordo da Meta de fevereiro de 2026 com a Nvidia para CPUs Grace standalone, que explicitamente desempacotou a CPU da GPU no roadmap de infraestrutura da Meta. O lado da demanda Graviton é corroborado por reportagem separada que dois grandes clientes AWS tentaram este ano comprar toda a capacidade de instância Graviton 2026 da AWS. A AWS recusou, citando necessidades de outros clientes. A atenção da indústria de chips esteve em GPUs por três anos. A história dos próximos dois vai ser CPUs.
A razão técnica é mecânica. Um forward pass de modelo roda em GPUs. Todo o resto em um workflow agentic roda em CPUs. Isso inclui montagem de prompt, invocação de ferramentas, parsing de resultados, rastreamento de estado através de cadeias de raciocínio multi-passo, orquestração entre chamadas de ferramentas, lógica de retry, logging, e o código cola que amarra as saídas de um modelo a qualquer ação que o agente precise tomar em seguida. Uma única tarefa agentic que leva um minuto de tempo de parede do usuário pode envolver centenas de segundos-CPU de orquestração para cada segundo-GPU de inferência. À medida que agentes se tornam o padrão dominante de deployment de LLM, essa razão move o gargalo de throughput matmul para quantidade de núcleos CPU e latência single-thread. Núcleos Graviton são baseados em ARM, cache-heavy, e precificados bem abaixo de Xeon ou EPYC equivalentes; eles são exatamente o perfil de carga que a orquestração de agente quer.
A foto comercial encaixa. A AWS implantou 1,4 milhão de chips Trainium em março de 2026 com 500.000 Trainium2 concentrados no Project Rainier, e a geração Graviton5 foi lançada recentemente com 192 núcleos e 180MB de cache L3. A Meta roda simultaneamente Nvidia Grace (acordo de fevereiro de 2026), AWS Graviton (esta semana), Broadcom custom silicon (extensão de abril de 2026 para processadores de IA custom), e seus próprios aceleradores internos MTIA. Essa diversificação é o sinal. A Meta não aposta em um único fornecedor de CPU porque a dinâmica competitiva entre Grace, Graviton, EPYC, Xeon, e silicon custom de hyperscaler ainda está aberta, e a Meta não quer ficar encurralada por um único fornecedor quando os volumes de inferência e orquestração crescerem outros 10x. A posição da Amazon nesta foto é incomum porque ela vende capacidade tanto para concorrentes diretos quanto para a Anthropic, que acabou de pegar US$25B da Amazon com um compromisso de gasto em nuvem anexado.
Para builders, a leitura prática é simples. Se você está arquitetando um sistema agentic, o modelo de custo muda. A inferência GPU ainda é a mais cara por token, mas o tempo de orquestração de CPU pode dominar o custo-de-bens total à medida que você adiciona chamadas de ferramentas, retries, e máquinas de estado complexas. Benchmarkar em uma instância CPU-rica contra uma enviesada para GPU vira algo que vale fazer em vez de assumir. Segundo, o panorama de provedores de inferência continuará mudando para vendedores com capacidade CPU ao lado de capacidade GPU; lojas puro-GPU como CoreWeave e Lambda otimizaram historicamente para throughput de treinamento mas estão construindo capacidade CPU agora especificamente porque cargas de agente precisam. Terceiro, se seu app está engargalado por orquestração de agente, você provavelmente tem mais espaço no eixo CPU que no eixo GPU para otimização, porque CPUs cloud baseados em ARM ficaram baratos rapidamente. A história de infraestrutura de IA em 2026 não é mais sobre quem tem mais H100s. É sobre quem construiu o silicon e o software de agendamento para rodar agentes em escala, e essa é uma forma diferente de pergunta.
