NVIDIA a livré les premiers CPUs Vera à Anthropic (San Francisco), OpenAI (Mission Bay), SpaceXAI (Palo Alto), et Oracle Cloud Infrastructure (Santa Clara) entre le 17 et 20 mai, hand-delivered par le VP Ian Buck. Vera est le premier CPU de NVIDIA positionné comme « built for agents » — 88 cœurs custom Olympus, 1,2 TB/s de bande passante mémoire, 50% plus vite par-cœur en pleine charge, interconnect NVLink-C2C de deuxième génération pour pairer avec les GPUs Rubin dans le système de référence Vera Rubin NVL72. Recipients nommés : James Bradbury chez Anthropic, Sachin Katti chez OpenAI. Oracle est le premier déploiement hyperscale cloud. NVIDIA a pas divulgué le pricing ou la timeline de general availability.
Le framing « built for agents » c'est le choix architectural qui compte. Les CPUs host précédents de NVIDIA (Grace) ciblaient les workloads HPC/AI génériques — CPU rapide à côté du GPU rapide, surtout du data-movement et de l'orchestration. Vera est sized spécifiquement pour ce que les systèmes agentiques font à côté du modèle : exécution de tool-call (code Python généré qui doit rouler quelque part), boucles de reinforcement learning, agent sandboxing, gestion de long-context state. La citation de Buck capture ça : « les modèles doivent en fait générer du code Python pour arriver à la bonne réponse ». Le CPU est maintenant le workhorse pour tout ce que le modèle émet qui se fait exécuter, pas juste de la glue entre GPU et storage. 88 cœurs et 1,2 TB/s de bande passante mémoire mettent Vera à densité classe-HPC pour un CPU host — plus haut que les CPUs serveur typiques, plus bas que le GPU mais optimisé pour les workloads agents sequential et memory-bandwidth-bound qui flanquent l'inférence.
Positionne ça dans le stack hardware AI de mai 2026. NVIDIA a shippé la méthodologie de pretraining 4-bit NVFP4 plus tôt ce mois-ci (la story compute côté-GPU). Vera est le complément côté-CPU. Le système de référence Vera Rubin NVL72 pair les deux. Move stratégique : NVIDIA est en train de fermer la boucle « tout sauf le modèle » — le workload agentique qui roule adjacent à l'inférence est maintenant du silicon NVIDIA end-to-end. Les CPUs serveur AMD MI300A et Intel Granite Rapids sont les compétiteurs les plus proches, mais aucun a été designé avec les workloads agent comme use case central. Pour les builders qui roulent des systèmes agent en production sur cloud, Oracle étant le premier déploiement hyperscale ça compte : les déploiements AWS, GCP, Azure sont pas nommés encore. Watch leurs annonces sur le prochain trimestre.
Lundi matin : si t'es pas dans le groupe des quatre recipients, Vera te shippe pas dans le prochain trimestre — c'est de l'échantillonnage initial aux top labs. Le takeaway c'est ce que ça te dit sur la prochaine génération d'infrastructure cloud agent : Oracle va offrir des instances Vera Rubin NVL72 avant AWS/GCP/Azure, par une certaine marge. Si ton workload agent est bottlenecké sur de l'exécution côté-CPU (tool calls, boucles inner de RL, exécution de code sandboxed), le coût relatif de ces opérations sur Vera versus les CPUs host Grace ou x86 actuels est le prochain benchmark à tracker. NVIDIA a pas publié de chiffres Vera-vs-x86 encore. Le bet plus profond : l'architecture hardware optimise maintenant pour « le stack agent autour du modèle », pas juste « le modèle lui-même ». C'est un shift significatif si les choix de design de Vera se répliquent downstream.
