Snowflake a signé un engagement de cinq ans, 6G$ pour de la capacité CPU AWS Graviton basée sur ARM. Le split stratégique nommé dans l'annonce, c'est « pendant que les GPU s'occupent de l'entraînement pis du raisonnement, les CPU s'occupent de la plupart des autres tâches associées à l'IA, particulièrement les agents ». C'est l'histoire builder-frame en dessous du chiffre économique de la une — les clients à grande échelle achètent du CPU à l'échelle d'engagement de supply parce que les charges agentiques sont CPU-bound, pas GPU-bound. Le run rate de 1,2G$/an met les CPU ARM dans la même catégorie d'approvisionnement que les contrats GPU qui dominent la conversation capex IA.
La raison architecturale pour laquelle les CPU ARM matchent la stack agent, c'est la forme de la charge. La plupart du wall-clock d'un agent, c'est du tool dispatch, de l'orchestration de retrieval, du parsing JSON, de la logique de validation, de l'assemblage de prompt, pis la machine d'état de 12 étapes qui enveloppe un appel d'inférence LLM. L'appel d'inférence unique veut de la bande passante mémoire GPU ; les onze étapes autour veulent des cycles CPU à basse latence à l'échelle. Le positionnement price-performance d'AWS Graviton a été validé à travers les charges générales de serveur depuis des années, mais la stack agent, c'est là que les mêmes économies commencent à s'appliquer aux dépenses tagged-IA. L'engagement Snowflake est aussi un signal Cortex AI — leur produit text-interface-to-database, c'est le genre de charge agent qui vit surtout sur CPU avec des appels GPU intermittents.
La lecture écosystème pour les bâtisseurs : le framing CPU-cloud vs GPU-Nvidia dans la presse, c'est la mauvaise dichotomie. La bonne lecture, c'est « les agents sont CPU-heavy avec des bursts GPU » — pis le ratio dépend de quelle étape de la boucle d'agent t'instrumente. Les hyperscalers (AWS Graviton, Azure Cobalt, Google Axion) positionnent ARM comme le substrat pour la part CPU-heavy des dépenses IA, qui est structurellement plus large que la part GPU-heavy pour n'importe quelle application au-delà du chat simple. Pas de comparaisons head-to-head contre les GPU Nvidia sur le wall-clock de boucle d'agent dans l'annonce, ce qui est le gap méthodologique à flagger. L'argument est économique-architectural, pas validé par benchmark. L'engagement de 6G$ de Snowflake est un vote que le cas économique est assez fort pour procurer sans attendre les benchmarks publics.
Si tu bâtis de l'infra d'agent lundi matin : mesure ton ratio actuel CPU-à-GPU dans le wall-clock d'agent, pis pick les types d'instances en conséquence. L'assomption « charge IA = instance GPU » coûte de l'argent sur les services agent-heavy. Si tu vends des plateformes d'agent : la conversation économique par-token avec les clients entreprise shift du coût brut d'inférence au mix compute total de boucle d'agent, pis le pricing CPU ARM, c'est partie de ce pitch.
