TechCrunch a rapporté vendredi que Meta a signé un deal pour des millions de CPU Amazon Web Services Graviton, spécifiquement cadrés comme capacité pour workloads IA agentic plutôt qu'entraînement ou inférence de modèle. Le deal s'ajoute à l'accord de Meta de février 2026 avec Nvidia pour des CPU Grace standalone, qui séparait explicitement le CPU du GPU dans le roadmap d'infrastructure de Meta. Le côté demande Graviton est corroboré par un reportage séparé que deux gros clients AWS ont essayé cette année d'acheter toute la capacité d'instance Graviton 2026 d'AWS. AWS a refusé, citant les besoins d'autres clients. L'attention de l'industrie des puces a été sur les GPU depuis trois ans. L'histoire des deux prochaines va être les CPU.

La raison technique est mécanique. Un forward pass de modèle tourne sur GPU. Tout le reste dans un workflow agentic tourne sur CPU. Ça inclut l'assemblage de prompt, l'invocation d'outils, le parsing de résultats, le suivi d'état à travers des chaînes de raisonnement multi-étapes, l'orchestration entre appels d'outils, la logique de retry, le logging, et le code de glue qui attache les sorties d'un modèle à n'importe quelle action que l'agent doit prendre ensuite. Une seule tâche agentic qui prend une minute de temps mur utilisateur peut impliquer des centaines de secondes-CPU d'orchestration pour chaque seconde-GPU d'inférence. À mesure que les agents deviennent le pattern de déploiement LLM dominant, ce ratio déplace le goulot du débit matmul vers le compte de cœurs CPU et la latence single-thread. Les cœurs Graviton sont basés ARM, cache-heavy, et tarifés bien en dessous de Xeon ou EPYC équivalents; ils sont exactement le profil de workload que veut l'orchestration d'agent.

La photo commerciale colle. AWS a déployé 1,4 million de puces Trainium en mars 2026 avec 500 000 Trainium2 concentrés dans Project Rainier, et la génération Graviton5 a été lancée récemment à 192 cœurs avec 180 Mo de cache L3. Meta fait tourner simultanément Nvidia Grace (deal février 2026), AWS Graviton (cette semaine), Broadcom custom silicon (extension avril 2026 pour processeurs IA custom), et ses propres accélérateurs internes MTIA. Cette diversification est le signe. Meta ne parie pas sur un seul vendeur CPU parce que la dynamique compétitive entre Grace, Graviton, EPYC, Xeon et silicon custom des hyperscalers est encore ouverte, et Meta ne veut pas être coincée par un seul fournisseur quand les volumes d'inférence et d'orchestration croissent encore 10x. La position d'Amazon dans cette photo est inhabituelle parce qu'elle vend de la capacité à la fois à des concurrents directs et à Anthropic, qui vient elle-même de prendre 25G$ d'Amazon avec un engagement de dépense cloud attaché.

Pour les builders, la lecture pratique est simple. Si tu architectures un système agentic, le modèle de coût se déplace. L'inférence GPU est encore la plus chère par token, mais le temps d'orchestration CPU peut dominer le coût-des-marchandises total à mesure que tu ajoutes appels d'outils, retries, et machines d'état complexes. Benchmarker sur une instance CPU-riche contre une biaisée GPU devient quelque chose à faire plutôt qu'à supposer. Deuxièmement, le paysage des providers d'inférence continuera de basculer vers les vendeurs avec de la capacité CPU à côté de la capacité GPU; les shops pur-GPU comme CoreWeave et Lambda ont historiquement optimisé pour le throughput d'entraînement mais construisent de la capacité CPU maintenant spécifiquement parce que les workloads d'agent en ont besoin. Troisièmement, si ton app est bottleneckée par l'orchestration d'agent, tu as probablement plus de place sur l'axe CPU que sur l'axe GPU pour l'optimisation, parce que les CPU cloud basés ARM sont devenus pas chers rapidement. L'histoire d'infrastructure IA en 2026 n'est plus à propos de qui a le plus de H100. C'est à propos de qui a construit le silicon et le logiciel de scheduling pour faire tourner les agents à l'échelle, et c'est une forme différente de question.