A Snowflake assinou um compromisso de cinco anos, US$6B para capacidade de CPU AWS Graviton baseada em ARM. O split estratégico nomeado no anúncio é "enquanto GPUs cuidam de treinamento e raciocínio, CPUs cuidam da maioria do resto das tarefas associadas com IA, particularmente agentes". Essa é a história builder-frame sob o número econômico da manchete — clientes em hiperescala estão comprando CPU em escala de compromisso de supply porque cargas agentic são CPU-bound, não GPU-bound. A taxa de US$1,2B/ano coloca CPUs ARM na mesma categoria de procurement que os contratos GPU que dominam a conversa de capex IA.

A razão arquitetônica pela qual CPUs ARM combinam com a stack de agentes é o formato da carga. A maioria do wall-clock de um agente é tool dispatch, orquestração de retrieval, parsing JSON, lógica de validação, montagem de prompt, e a máquina de estado de doze passos que envolve uma chamada de inferência LLM. A chamada de inferência única quer largura de banda de memória GPU; os onze passos ao redor querem ciclos CPU de baixa latência em escala. O posicionamento price-performance da AWS Graviton tem sido validado através de cargas gerais de servidor por anos, mas a stack de agentes é onde as mesmas economias começam a aplicar ao gasto tagged-IA. O compromisso Snowflake é também um sinal Cortex AI — seu produto text-interface-to-database é o tipo de carga de agente que vive majoritariamente em CPU com chamadas GPU intermitentes.

A leitura de ecossistema para construtores: o framing CPU-cloud vs GPU-Nvidia na imprensa é a dicotomia errada. A leitura correta é "agentes são CPU-heavy com bursts GPU" — e a razão depende de qual passo do loop de agente você instrumenta. Os hyperscalers (AWS Graviton, Azure Cobalt, Google Axion) estão posicionando ARM como o substrato para a parte CPU-heavy do gasto IA, que é estruturalmente maior que a parte GPU-heavy para qualquer aplicação além do chat simples. Nenhuma comparação head-to-head contra GPU Nvidia em wall-clock de loop de agente no anúncio, o que é a lacuna metodológica para sinalizar. O argumento é econômico-arquitetônico, não validado por benchmark. O compromisso de US$6B da Snowflake é um voto de que o caso econômico é forte o suficiente para procurar sem esperar benchmarks públicos.

Se você constrói infra de agentes segunda de manhã: meça sua proporção atual CPU-para-GPU em wall-clock de agente, e escolha tipos de instância conforme. A suposição "carga IA = instância GPU" custa dinheiro em serviços agent-heavy. Se você vende plataformas de agentes: a conversa de econômicas por-token com clientes empresariais está mudando de custo bruto de inferência para mix de compute total de loop de agente, e o pricing CPU ARM é parte desse pitch.