NVIDIA ने 17-20 मई के बीच पहले Vera CPUs Anthropic (San Francisco), OpenAI (Mission Bay), SpaceXAI (Palo Alto), और Oracle Cloud Infrastructure (Santa Clara) को deliver किए, VP Ian Buck द्वारा हाथ से delivered। Vera NVIDIA का पहला CPU है जो "agents के लिए बना" position किया गया है — 88 custom Olympus cores, 1.2 TB/s memory bandwidth, full load पर per-core 50% तेज़, second-generation NVLink-C2C interconnect Rubin GPUs के साथ Vera Rubin NVL72 reference system में pair करने के लिए। Named recipients: Anthropic में James Bradbury, OpenAI में Sachin Katti। Oracle पहला hyperscale cloud deployment है। NVIDIA ने pricing या general-availability timeline disclose नहीं किया।

"agents के लिए बना" framing वो architectural choice है जो matter करती है। NVIDIA के पहले host CPUs (Grace) general HPC/AI workloads को target करते थे — fast GPU के बगल में fast CPU, ज़्यादातर data-movement और orchestration। Vera को specifically उसी के लिए size किया गया है जो agentic systems model के बगल में करते हैं: tool-call execution (generated Python code जिसे कहीं run करना है), reinforcement learning loops, agent sandboxing, long-context state management। Buck की quote यह capture करती है: "models को सही answer तक पहुँचने के लिए actually कुछ Python code generate करना पड़ता है।" CPU अब हर उस चीज़ का workhorse है जो model emit करता है और execute होती है, सिर्फ़ GPU और storage के बीच का glue नहीं। 88 cores और 1.2 TB/s memory bandwidth Vera को host CPU के लिए HPC-class density पर रखता है — typical server CPUs से ज़्यादा, GPU से कम लेकिन उन sequential और memory-bandwidth-bound agent workloads के लिए optimized जो inference को flank करते हैं।

इसे मई 2026 के AI hardware stack में position करो। NVIDIA ने इस महीने earlier NVFP4 4-bit pretraining methodology ship की (GPU-side compute story)। Vera CPU-side complement है। Vera Rubin NVL72 reference system दोनों को pair करता है। Strategic move: NVIDIA "मॉडल के अलावा सब कुछ" loop close कर रही है — inference के adjacent चलने वाला agentic workload अब end-to-end NVIDIA silicon है। AMD MI300A और Intel Granite Rapids server CPUs सबसे करीबी competitors हैं, लेकिन कोई भी agent workloads को central use case मानकर design नहीं किया गया। Cloud पर production agent systems चलाने वाले builders के लिए, Oracle का first hyperscale deployment होना matter करता है: AWS, GCP, Azure deployments अभी named नहीं हैं। उनकी announcements अगले quarter में watch करो।

सोमवार: अगर आप चार recipients के group में नहीं हो, Vera आपके पास अगले quarter में नहीं आएगा — यह top labs के लिए initial sampling है। Takeaway यह है कि यह आपको next-generation cloud agent infrastructure के बारे में क्या बताता है: Oracle Vera Rubin NVL72 instances AWS/GCP/Azure से पहले, कुछ margin से, offer करेगी। अगर आपका agent workload CPU-side execution पर bottlenecked है (tool calls, RL inner loops, sandboxed code execution), Vera पर उन operations की relative cost बनाम current Grace या x86 host CPUs अगला benchmark है track करने के लिए। NVIDIA ने Vera-vs-x86 numbers अभी publish नहीं किए। Deeper bet: hardware architecture अब "model के around वाले agent stack" के लिए optimize हो रहा है, सिर्फ़ "model itself" के लिए नहीं। यह एक meaningful shift है अगर Vera की design choices downstream replicate होती हैं।