NVIDIA 5 月 17-20 日把第一批 Vera CPU 送到了 Anthropic(San Francisco)、OpenAI(Mission Bay)、SpaceXAI(Palo Alto)和 Oracle Cloud Infrastructure(Santa Clara),由 VP Ian Buck 親自送達。Vera 是 NVIDIA 第一顆定位為「為 agent 而造」的 CPU —— 88 個自研 Olympus 核心,1.2 TB/s 記憶體頻寬,滿載時單核效能快 50%,透過第二代 NVLink-C2C 互連,跟 Vera Rubin NVL72 參考系統裡的 Rubin GPU 配對。點名接收的人:Anthropic 的 James Bradbury(算力負責人)、OpenAI 的 Sachin Katti(算力基礎設施負責人)。Oracle 是第一個超大規模雲上的部署。NVIDIA 沒披露定價和正式上市時間。
「為 agent 而造」這個框架,是它真正重要的架構選擇。NVIDIA 上一代的 host CPU(Grace)瞄準的是通用 HPC/AI 工作負載 —— 快 CPU 配快 GPU,主要做資料搬運和編排。Vera 是專門按 agentic 系統在模型旁邊要做的事情來定尺寸的:tool call 的執行(模型生成的 Python 程式碼得在某個地方跑)、強化學習的內迴圈、agent 沙箱、長上下文狀態管理。Buck 的原話抓得很準:「模型其實得生成一些 Python 程式碼,才能得到正確答案。」CPU 現在是模型吐出來的所有要被執行的東西的真正馱獸,不再只是 GPU 和儲存之間的膠水。88 個核加 1.2 TB/s 記憶體頻寬,讓 Vera 在 host CPU 上達到了 HPC 級密度 —— 比典型伺服器 CPU 高、比 GPU 低,但專門針對那些在推論兩側、循序為主、被記憶體頻寬卡住的 agent 工作負載做了最佳化。
把這件事放到 2026 年 5 月的 AI 硬體堆疊裡看。NVIDIA 這個月稍早出了 NVFP4 4-bit 預訓練方法論(GPU 側算力的故事)。Vera 是 CPU 側的補全。Vera Rubin NVL72 參考系統把兩者配在一起。戰略動作:NVIDIA 在閉合「除了模型以外的一切」這個環 —— 跑在推論旁邊的 agentic 工作負載,現在端到端都是 NVIDIA 的矽。AMD MI300A 和 Intel Granite Rapids 伺服器 CPU 是最近的競爭對手,但它們都不是把 agent 工作負載當成中心 use case 來設計的。對在雲上跑生產 agent 系統的 builder 來說,Oracle 成為第一個超大規模部署這件事很重要:AWS、GCP、Azure 的部署還沒被點名。看接下來一個季度它們的公告。
週一上手:如果你不在那四家收貨者之列,下個季度 Vera 不會送到你這邊 —— 這是給 top lab 的初步取樣。對你來說,它告訴的是下一代 cloud agent 基礎設施的樣子:Oracle 提供 Vera Rubin NVL72 實例的時間,比 AWS/GCP/Azure 會早一段。如果你的 agent 工作負載瓶頸在 CPU 側的執行(tool call、RL 內迴圈、沙箱程式碼執行),那麼 Vera 上這些操作相對 Grace 或 x86 host CPU 的成本,是接下來要追蹤的 benchmark。NVIDIA 還沒公布 Vera-vs-x86 的數字。更深一層的押注:硬體架構現在在為「圍繞模型的 agent 堆疊」做最佳化,不再只是「模型本身」。如果 Vera 的設計選擇在下游被複製,這個 shift 就有分量了。
