Sheon Han de Wired pasó un día escribiendo CUDA y salió con una lectura útil para builders: el foso de Nvidia no son los H100 o B200, es CUDA — la plataforma que Ian Buck y John Nickolls comenzaron en Nvidia a mediados de los 2000, y las librerías acumuladas encima desde entonces. Una multiplicación de matrices que toma tres líneas en PyTorch le tomó más de cincuenta en CUDA. Esa diferencia es el foso. PyTorch, TensorFlow y JAX son todos CUDA-first; en el MI300X de AMD — que sobre el papel tiene más cores y más memoria que un H100 — los mismos frameworks rinden menos porque los kernels se tunearon para silicio Nvidia, no porque el hardware sea más lento. Los benchmarks independientes lo confirman sistemáticamente.

Debajo de CUDA está PTX, el pseudo-ensamblador de Nvidia. El entrenamiento de DeepSeek V3 célebremente bajó de la abstracción CUDA para escribir PTX directamente y exprimir throughput que las librerías de Nvidia dejaban sobre la mesa. Es la prueba de que el foso es drenable. El problema: la población global de ingenieros capaces de hacer este trabajo es pequeña, y una parte significativa trabaja en Nvidia. ROCm de AMD envía hace años y su subreddit sigue pareciendo un grupo de apoyo. oneAPI de Intel está en respirador. OpenCL — antes respaldado por Apple, AMD y Qualcomm — nunca despegó. El único retador creíble hoy es Modular, la empresa de Chris Lattner que construye Mojo y MAX, y Modular sigue lejos de desplazar la dependencia CUDA de PyTorch en producción.

Para la economía de wrappers y el bando del stack abierto, esta es la realidad poco glamorosa: cada promesa de "también corremos en AMD" debe leerse como "toleramos una brecha de rendimiento, en general invisible en inferencia, fea en entrenamiento". Frameworks como vLLM y SGLang están tuneados CUDA por defecto; los ports AMD existen pero van atrasados. La consecuencia para el stack profundo es que cualquier proveedor que prometa inferencia hardware-neutra paga el impuesto CUDA de una de dos maneras — kernels más lentos en chips competidores, o un equipo de ingenieros escribiendo su propio PTX. Esa segunda opción es lo que hace funcionar la economía de R1 y V3 en DeepSeek; muy pocos labs tienen el staff para repetirlo. Incluso los agentes de codificación tropiezan con código de kernels, lo que significa que el camino "la IA escribe sus propios kernels" que disolvería el foso aún no está operativo.

Para el builder de un lunes por la mañana: si tu stack es solo Nvidia, el foso se paga solo en rendimiento que perderías en otro lado. Si apuestas a AMD, Intel o una startup de aceleradores para romper el lock-in, vigila dos señales — la adopción de Modular dentro de pipelines de entrenamiento reales (no benchmarks), y si Triton de OpenAI o PyTorch 3 de Meta abstraen lo suficiente la capa kernel para que los swaps de hardware sean baratos. Hasta que uno de esos cambios ocurra, la lectura de Han sostiene: Nvidia es una empresa de hardware porque primero es una empresa de software, y esa capa de software tiene veinte años de profundidad.