NVIDIA entregó los primeros CPUs Vera a Anthropic (San Francisco), OpenAI (Mission Bay), SpaceXAI (Palo Alto), y Oracle Cloud Infrastructure (Santa Clara) entre el 17-20 de mayo, entregados en mano por el VP Ian Buck. Vera es el primer CPU de NVIDIA posicionado como "construido para agentes" — 88 núcleos custom Olympus, 1.2 TB/s de ancho de banda de memoria, 50% más rápido por núcleo bajo carga completa, interconector NVLink-C2C de segunda generación para emparejarse con GPUs Rubin en el sistema de referencia Vera Rubin NVL72. Receptores nombrados: James Bradbury en Anthropic, Sachin Katti en OpenAI. Oracle es el primer despliegue hyperscale cloud. NVIDIA no ha divulgado precios ni cronograma de disponibilidad general.

El encuadre "construido para agentes" es la elección arquitectónica que importa. Los CPUs host anteriores de NVIDIA (Grace) apuntaban a cargas HPC/AI generales — CPU rápido junto a GPU rápido, principalmente movimiento de datos y orquestación. Vera está dimensionado específicamente para lo que los sistemas agénticos hacen junto al modelo: ejecución de tool-call (código Python generado que necesita correr en algún lado), bucles de aprendizaje por refuerzo, sandboxing de agentes, gestión de estado de largo contexto. La cita de Buck lo captura: "los modelos en realidad tienen que generar algo de código Python para llegar a la respuesta correcta." El CPU es ahora el caballo de batalla para todo lo que el modelo emite que se ejecuta, no solo pegamento entre GPU y almacenamiento. 88 núcleos y 1.2 TB/s de ancho de banda de memoria ponen a Vera en densidad clase-HPC para un CPU host — más alto que los CPUs servidor típicos, más bajo que el GPU pero optimizado para las cargas agente secuenciales y limitadas por ancho de banda de memoria que flanquean la inferencia.

Posiciona esto en la pila de hardware AI de mayo 2026. NVIDIA envió la metodología de pretraining 4-bit NVFP4 a principios de este mes (la historia de cómputo lado-GPU). Vera es el complemento lado-CPU. El sistema de referencia Vera Rubin NVL72 empareja ambos. Movimiento estratégico: NVIDIA está cerrando el bucle "todo excepto el modelo" — la carga agéntica que corre adyacente a la inferencia ahora es silicio NVIDIA de extremo-a-extremo. Los CPUs servidor AMD MI300A e Intel Granite Rapids son los competidores más cercanos, pero ninguno fue diseñado con cargas de agente como caso de uso central. Para builders corriendo sistemas de agentes en producción en cloud, que Oracle sea el primer despliegue hyperscale importa: los despliegues AWS, GCP, Azure no están nombrados todavía. Vigila sus anuncios en el próximo trimestre.

Lunes: si no estás en el grupo de cuatro receptores, Vera no te llegará en el próximo trimestre — esto es muestreo inicial a top labs. Lo que importa es lo que esto te dice sobre la próxima generación de infraestructura cloud de agentes: Oracle ofrecerá instancias Vera Rubin NVL72 antes que AWS/GCP/Azure, por algún margen. Si tu carga de agente tiene cuello de botella en ejecución lado-CPU (tool calls, bucles internos de RL, ejecución de código sandboxed), el costo relativo de esas operaciones en Vera vs los CPUs host Grace o x86 actuales es el próximo benchmark a rastrear. NVIDIA no ha publicado números Vera-vs-x86 todavía. La apuesta más profunda: la arquitectura de hardware ahora se está optimizando para "la pila de agentes alrededor del modelo," no solo "el modelo en sí mismo." Eso es un cambio significativo si las elecciones de diseño de Vera se replican aguas abajo.