Sheon Han da Wired passou um dia escrevendo CUDA e saiu com uma leitura útil para builders: o fosso da Nvidia não são os H100 ou B200, é o CUDA — a plataforma que Ian Buck e John Nickolls começaram a montar na Nvidia em meados dos anos 2000, e as bibliotecas acumuladas em cima desde então. Uma multiplicação de matrizes que leva três linhas em PyTorch levou a ele mais de cinquenta em CUDA. Essa razão é o fosso. PyTorch, TensorFlow e JAX são todos CUDA-first; no MI300X da AMD — que no papel tem mais cores e mais memória que um H100 — os mesmos frameworks rendem menos porque os kernels foram afinados para silício Nvidia, não porque o hardware é mais lento. Benchmarks independentes confirmam isso de forma consistente.

Abaixo do CUDA está o PTX, o pseudo-assembly da Nvidia. O treinamento do DeepSeek V3 famosamente desceu abaixo da abstração CUDA para escrever PTX diretamente e espremer throughput que as bibliotecas da Nvidia deixavam na mesa. Essa é a prova de existência de que o fosso é drenável. O detalhe: a população global de engenheiros capazes desse trabalho é pequena, e uma fatia significativa trabalha na Nvidia. O ROCm da AMD existe há anos e o seu subreddit ainda parece um grupo de apoio. O oneAPI da Intel está em respirador. O OpenCL — antes apoiado por Apple, AMD e Qualcomm — nunca decolou. O único desafiante crível hoje é a Modular, a empresa de Chris Lattner construindo Mojo e MAX, e a Modular ainda está longe de deslocar a dependência CUDA do PyTorch em produção.

Para a economia dos wrappers e o time do stack aberto, essa é a realidade pouco glamorosa: cada promessa de "também rodamos em AMD" deve ser lida como "toleramos uma penalidade de desempenho, em geral invisível em inferência, feia em treinamento". Frameworks como vLLM e SGLang são tunados CUDA por padrão; os ports AMD existem mas estão atrasados. A consequência para o stack profundo é que qualquer provedor que promete inferência hardware-neutra paga o imposto CUDA de uma de duas maneiras — kernels mais lentos em chips concorrentes, ou uma equipe de engenheiros escrevendo o próprio PTX. Essa segunda opção é o que faz a economia do R1 e do V3 funcionar na DeepSeek; pouquíssimos labs têm o staff para repetir. Até os agentes de programação tropeçam em código de kernel, o que significa que o caminho "a IA escreve seus próprios kernels" que dissolveria o fosso ainda não está operacional.

Para o builder de segunda de manhã: se o teu stack é só Nvidia, o fosso se paga em desempenho que perderias em outro lugar. Se aposta na AMD, Intel ou numa startup de aceleradores para quebrar o lock-in, vigia dois sinais — a adoção da Modular em pipelines reais de treinamento (não benchmarks), e se o Triton da OpenAI ou o PyTorch 3 da Meta abstraem o suficiente a camada kernel para tornar a troca de hardware barata. Até que um desses dois desloques aconteça, a leitura de Han se sustenta: a Nvidia é uma empresa de hardware porque primeiro é uma empresa de software, e essa camada de software tem vinte anos de profundidade.