Snowflake firmó un compromiso de cinco años, $6B para capacidad CPU AWS Graviton basada en ARM. El split estratégico nombrado en el anuncio es "mientras las GPUs manejan entrenamiento y razonamiento, las CPUs manejan la mayoría del resto de tareas asociadas con IA, particularmente agentes". Esa es la historia builder-frame bajo el número económico del titular — los clientes a hiperescala están comprando CPU a escala de compromiso de supply porque las cargas agentic son CPU-bound, no GPU-bound. La tasa de $1.2B/año pone las CPUs ARM en la misma categoría de procurement que los contratos GPU que dominan la conversación de capex IA.
La razón arquitectónica por la que las CPUs ARM matchean la stack de agentes es la forma de la carga. La mayoría del wall-clock de un agente es tool dispatch, orquestación de retrieval, parsing JSON, lógica de validación, ensamblaje de prompt, y la máquina de estado de doce pasos que envuelve una llamada de inferencia LLM. La llamada de inferencia única quiere ancho de banda de memoria GPU; los once pasos alrededor quieren ciclos CPU de baja latencia a escala. El posicionamiento price-performance de AWS Graviton ha sido validado a través de cargas generales de servidor por años, pero la stack de agentes es donde las mismas economías comienzan a aplicar al gasto tagged-IA. El compromiso Snowflake es también una señal Cortex AI — su producto text-interface-to-database es el tipo de carga de agente que vive mayormente en CPU con llamadas GPU intermitentes.
La lectura de ecosistema para constructores: el framing CPU-cloud vs GPU-Nvidia en la prensa es la dicotomía equivocada. La lectura correcta es "los agentes son CPU-heavy con bursts GPU" — y la razón depende de qué paso del loop de agente instrumentes. Los hiperscalers (AWS Graviton, Azure Cobalt, Google Axion) están posicionando ARM como el sustrato para la parte CPU-heavy del gasto IA, que es estructuralmente más grande que la parte GPU-heavy para cualquier aplicación más allá del chat simple. No hay comparaciones head-to-head contra GPU Nvidia en wall-clock de loop de agente en el anuncio, lo cual es la brecha metodológica para flaggear. El argumento es económico-arquitectónico, no validado por benchmark. El compromiso de $6B de Snowflake es un voto de que el caso económico es lo suficientemente fuerte para procurar sin esperar benchmarks públicos.
Si construyes infra de agentes el lunes por la mañana: mide tu ratio actual CPU-a-GPU en wall-clock de agente, y elige tipos de instancia conforme. La asunción "carga IA = instancia GPU" cuesta dinero en servicios agent-heavy. Si vendes plataformas de agentes: la conversación de económicas por-token con clientes empresariales está cambiando de costo bruto de inferencia a mix de compute total de loop de agente, y el pricing CPU ARM es parte de ese pitch.
