NVIDIA 5 月 17-20 日把第一批 Vera CPU 送到了 Anthropic(San Francisco)、OpenAI(Mission Bay)、SpaceXAI(Palo Alto)和 Oracle Cloud Infrastructure(Santa Clara),由 VP Ian Buck 亲自送达。Vera 是 NVIDIA 第一颗定位为「为 agent 而造」的 CPU —— 88 个自研 Olympus 核心,1.2 TB/s 内存带宽,满载时单核性能快 50%,通过第二代 NVLink-C2C 互联,跟 Vera Rubin NVL72 参考系统里的 Rubin GPU 配对。点名接收的人:Anthropic 的 James Bradbury(算力负责人)、OpenAI 的 Sachin Katti(算力基础设施负责人)。Oracle 是第一个超大规模云上的部署。NVIDIA 没披露定价和正式上市时间。
「为 agent 而造」这个框架,是它真正重要的架构选择。NVIDIA 上一代的 host CPU(Grace)瞄准的是通用 HPC/AI 工作负载 —— 快 CPU 配快 GPU,主要做数据搬运和编排。Vera 是专门按 agentic 系统在模型旁边要做的事情来定尺寸的:tool call 的执行(模型生成的 Python 代码得在某个地方跑)、强化学习的内循环、agent 沙箱、长上下文状态管理。Buck 的原话抓得很准:「模型其实得生成一些 Python 代码,才能得到正确答案。」CPU 现在是模型吐出来的所有要被执行的东西的真正驮兽,不再只是 GPU 和存储之间的胶水。88 个核加 1.2 TB/s 内存带宽,让 Vera 在 host CPU 上达到了 HPC 级密度 —— 比典型服务器 CPU 高、比 GPU 低,但专门针对那些在推理两侧、顺序为主、被内存带宽卡住的 agent 工作负载做了优化。
把这件事放到 2026 年 5 月的 AI 硬件栈里看。NVIDIA 这个月早些时候出了 NVFP4 4-bit 预训练方法论(GPU 侧算力的故事)。Vera 是 CPU 侧的补全。Vera Rubin NVL72 参考系统把两者配在一起。战略动作:NVIDIA 在闭合「除了模型以外的一切」这个环 —— 跑在推理旁边的 agentic 工作负载,现在端到端都是 NVIDIA 的硅。AMD MI300A 和 Intel Granite Rapids 服务器 CPU 是最近的竞争对手,但它们都不是把 agent 工作负载当成中心 use case 来设计的。对在云上跑生产 agent 系统的 builder 来说,Oracle 成为第一个超大规模部署这件事很重要:AWS、GCP、Azure 的部署还没被点名。看接下来一个季度它们的公告。
周一上手:如果你不在那四家收货者之列,下个季度 Vera 不会送到你这边 —— 这是给 top lab 的初步取样。对你来说,它告诉的是下一代 cloud agent 基础设施的样子:Oracle 提供 Vera Rubin NVL72 实例的时间,比 AWS/GCP/Azure 会早一段。如果你的 agent 工作负载瓶颈在 CPU 侧的执行(tool call、RL 内循环、沙箱代码执行),那么 Vera 上这些操作相对 Grace 或 x86 host CPU 的成本,是接下来要追踪的 benchmark。NVIDIA 还没公布 Vera-vs-x86 的数字。更深一层的押注:硬件架构现在在为「围绕模型的 agent 栈」做优化,不再只是「模型本身」。如果 Vera 的设计选择在下游被复制,这个 shift 就有分量了。
