A NVIDIA entregou os primeiros CPUs Vera à Anthropic (San Francisco), OpenAI (Mission Bay), SpaceXAI (Palo Alto), e Oracle Cloud Infrastructure (Santa Clara) entre 17-20 de maio, entregues em mãos pelo VP Ian Buck. Vera é o primeiro CPU da NVIDIA posicionado como "construído para agentes" — 88 núcleos custom Olympus, 1,2 TB/s de largura de banda de memória, 50% mais rápido por núcleo sob carga total, interconector NVLink-C2C de segunda geração para emparelhar com GPUs Rubin no sistema de referência Vera Rubin NVL72. Receptores nomeados: James Bradbury na Anthropic, Sachin Katti na OpenAI. A Oracle é o primeiro desplegamento hyperscale cloud. A NVIDIA não divulgou preços nem cronograma de disponibilidade geral.

O enquadramento "construído para agentes" é a escolha arquitetural que importa. Os CPUs host anteriores da NVIDIA (Grace) miravam cargas HPC/AI gerais — CPU rápido ao lado de GPU rápido, principalmente movimento de dados e orquestração. Vera é dimensionado especificamente para o que sistemas agênticos fazem ao lado do modelo: execução de tool-call (código Python gerado que precisa rodar em algum lugar), loops de aprendizado por reforço, sandboxing de agentes, gestão de estado de longo contexto. A citação de Buck captura isso: "os modelos na verdade têm que gerar algum código Python para chegar à resposta correta." O CPU é agora o cavalo de batalha para tudo o que o modelo emite que é executado, não apenas cola entre GPU e armazenamento. 88 núcleos e 1,2 TB/s de largura de banda de memória colocam Vera em densidade classe-HPC para um CPU host — mais alto que CPUs servidor típicos, mais baixo que o GPU mas otimizado para as cargas de agente sequenciais e limitadas por largura de banda de memória que flanqueiam a inferência.

Posicione isto na pilha de hardware AI de maio 2026. A NVIDIA enviou a metodologia de pretraining 4-bit NVFP4 no início deste mês (a história de computação lado-GPU). Vera é o complemento lado-CPU. O sistema de referência Vera Rubin NVL72 empareja ambos. Movimento estratégico: a NVIDIA está fechando o ciclo "tudo exceto o modelo" — a carga agêntica que roda adjacente à inferência agora é silício NVIDIA de ponta-a-ponta. Os CPUs servidor AMD MI300A e Intel Granite Rapids são os concorrentes mais próximos, mas nenhum foi projetado com cargas de agente como caso de uso central. Para builders rodando sistemas de agentes em produção em cloud, que a Oracle seja o primeiro desplegamento hyperscale importa: os desplegamentos AWS, GCP, Azure não estão nomeados ainda. Fique de olho nos anúncios deles no próximo trimestre.

Segunda-feira: se você não está no grupo dos quatro receptores, Vera não chega para você no próximo trimestre — isto é amostragem inicial aos top labs. O takeaway é o que isto te diz sobre a próxima geração de infraestrutura cloud de agentes: a Oracle oferecerá instâncias Vera Rubin NVL72 antes da AWS/GCP/Azure, por alguma margem. Se sua carga de agente tem gargalo em execução lado-CPU (tool calls, loops internos de RL, execução de código sandboxed), o custo relativo dessas operações no Vera vs os CPUs host Grace ou x86 atuais é o próximo benchmark a rastrear. A NVIDIA não publicou números Vera-vs-x86 ainda. A aposta mais profunda: a arquitetura de hardware está agora se otimizando para "a pilha de agente em torno do modelo," não apenas "o modelo em si." Essa é uma mudança significativa se as escolhas de design do Vera se replicarem rio abaixo.