TechCrunch reportó el viernes que Meta firmó un trato por millones de CPUs Amazon Web Services Graviton, específicamente encuadrados como capacidad para cargas agentic de IA en vez de entrenamiento o inferencia de modelo. El trato se suma al acuerdo de Meta de febrero 2026 con Nvidia por CPUs Grace standalone, que explícitamente desempaquetó el CPU del GPU en el roadmap de infraestructura de Meta. El lado de demanda Graviton es corroborado por reportajes separados que dos grandes clientes AWS intentaron este año comprar toda la capacidad de instancia Graviton 2026 de AWS. AWS rehusó, citando necesidades de otros clientes. La atención de la industria de chips ha estado en GPUs durante tres años. La historia de los próximos dos va a ser los CPUs.

La razón técnica es mecánica. Un forward pass de modelo corre en GPUs. Todo lo demás en un workflow agentic corre en CPUs. Eso incluye ensamblaje de prompt, invocación de herramientas, parsing de resultados, seguimiento de estado a través de cadenas de razonamiento multi-paso, orquestación entre llamadas de herramientas, lógica de retry, logging, y el código de pegamento que ata las salidas de un modelo a cualquier acción que el agente necesite tomar después. Una sola tarea agentic que toma un minuto de tiempo de pared de usuario puede involucrar cientos de segundos-CPU de orquestación por cada segundo-GPU de inferencia. A medida que los agentes se convierten en el patrón de despliegue LLM dominante, ese ratio mueve el cuello de botella desde throughput de matmul a cantidad de núcleos CPU y latencia single-thread. Los núcleos Graviton son basados en ARM, cache-heavy, y tarifados bien por debajo de Xeon o EPYC equivalentes; son exactamente el perfil de carga que la orquestación de agente quiere.

La foto comercial encaja. AWS ha desplegado 1,4 millones de chips Trainium a marzo 2026 con 500.000 Trainium2 concentrados en Project Rainier, y la generación Graviton5 se lanzó recientemente a 192 núcleos con 180MB de caché L3. Meta corre simultáneamente Nvidia Grace (trato febrero 2026), AWS Graviton (esta semana), Broadcom custom silicon (extensión abril 2026 para procesadores IA custom), y sus propios aceleradores internos MTIA. Esa diversificación es la señal. Meta no apuesta a un solo vendedor CPU porque la dinámica competitiva entre Grace, Graviton, EPYC, Xeon, y silicon custom de hyperscalers sigue abierta, y Meta no quiere ser acorralada por un solo proveedor cuando los volúmenes de inferencia y orquestación crezcan otro 10x. La posición de Amazon en esta foto es inusual porque vende capacidad tanto a competidores directos como a Anthropic, que acaba de tomar $25B de Amazon con un compromiso de gasto cloud adjunto.

Para builders, la lectura práctica es simple. Si estás arquitecturando un sistema agentic, el modelo de costo cambia. La inferencia GPU sigue siendo la más cara por token, pero el tiempo de orquestación CPU puede dominar el costo-de-bienes total a medida que añades llamadas de herramientas, retries, y máquinas de estado complejas. Benchmarkear en una instancia CPU-rica contra una sesgada hacia GPU se vuelve algo que vale hacer en vez de asumir. Segundo, el paisaje de proveedores de inferencia seguirá cambiando hacia vendedores con capacidad CPU junto a capacidad GPU; tiendas puro-GPU como CoreWeave y Lambda han optimizado históricamente para throughput de entrenamiento pero están construyendo capacidad CPU ahora específicamente porque las cargas de agente la necesitan. Tercero, si tu app está bottleneckada por orquestación de agente, probablemente tienes más espacio en el eje CPU que en el eje GPU para optimización, porque los CPUs cloud basados en ARM se han vuelto baratos rápidamente. La historia de infraestructura IA en 2026 ya no es sobre quién tiene más H100s. Es sobre quién ha construido el silicon y el software de scheduling para correr agentes a escala, y esa es una forma diferente de pregunta.