A AMD teve silício IA competitivo por dois anos (MI300X com 192GB HBM3, MI325X com 256GB HBM3E, agora MI355X com 288GB HBM3E e 8TB/s de largura de banda de memória na arquitetura CDNA de 4ª geração). A razão pela qual as empresas mostly não migraram é que o stack de software — ROCm, cobertura de kernels, ports vLLM/SGLang, scheduling — ficou atrás do ecossistema CUDA da Nvidia por uma margem grande o bastante pra apagar a vantagem de hardware. A história agora é que os provedores *neocloud* — TensorWave, MangoBoost, Crusoe — estão fechando esse gap eles mesmos em vez de esperar pela AMD ou pela comunidade open-source, e as provas públicas estão começando a aterrissar.

O resultado manchete: o stack de software LLMBoost da MangoBoost atingiu 103.182 tokens/seg offline no Llama2-70B em MLPerf Inference v5.0 através de 32× MI300X (quatro nós de 8 GPUs), versus o recorde anterior do H100 de 82.749 TPS — cerca de 25% mais throughput. Eles creditam três coisas: paralelismo multidimensional, scheduling dinâmico através das 8 GPUs por nó, e interface simplificada que dizem rodar 5,2-6,0× mais rápido que vLLM padrão no mesmo hardware. A matemática própria da MangoBoost (caveat: números deles, não auditados independentemente) — MI300X a $15-17K vs H100 a $32-40K — dá aproximadamente 2,8× mais throughput de inferência por $1.000 gastos. A TensorWave está entre os primeiros cloud deployando MI355X em produção, e roda o maior cluster de treinamento IA AMD da América do Norte em 8.192× MI325X sob refrigeração líquida direta. O pricing cloud do MI355X em cinco provedores (TensorWave, Crusoe, Vultr, e outros) atualmente fica entre $2,29 e $8,60/hr por GPU.

O padrão é o que os devs deveriam acompanhar. O gap da AMD era infame — hardware capaz que ninguém conseguia deployar produtivamente porque os kernels não estavam lá, os schedulers não estavam afinados, o suporte de frameworks era desigual. A resposta tradicional seria "a AMD resolve" ou "a comunidade open-source resolve" — ambas vêm se movendo, mas devagar. Neoclouds são um terceiro caminho: provedores verticalmente integrados que possuem tanto a otimização de software *quanto* a superfície de deployment, capturando margem do gap custo-por-token que criam. Isso é estruturalmente diferente do stack Nvidia-mais-hyperscaler, onde a Nvidia possui o software e os hyperscalers rodam o hardware. O caminho da AMD é fragmentado por design, e essa fragmentação finalmente está jogando a favor dela — quando nenhum dono de plataforma controla a história de otimização, jogadores especializados podem ganhar no esforço focado.

Se você entrega inferência LLM em escala e ficou travado em H100/H200 porque o caminho AMD parecia rough demais, a matemática mudou. Teste a carga de trabalho real em MI300X via MangoBoost ou MI355X via TensorWave/Crusoe antes de assinar a próxima aquisição Nvidia. O número MLPerf não é a imagem completa — seu perfil de latência, a cobertura de kernels pra sua arquitetura de modelo específica, e a familiaridade ROCm do seu time de ops importam todas — mas ~2,8× throughput de inferência por dólar é um número que justifica uma passada completa de benchmarking. O stack LLMBoost é a camada de software que carrega o peso; se você roda vLLM padrão em MI300X e tira números pouco impressionantes, é porque vLLM padrão não é o caminho otimizado. O sinal não é "a AMD venceu". É "o argumento de lock-in de software pra Nvidia é mais fraco do que era há um ano, e neoclouds são a razão".