Los neoclouds desbloquean las GPU IA de AMD: récord MLPerf le gana al H100 en ~25% en Llama2-70B

AMD ha tenido silicio IA competitivo durante dos años (MI300X con 192GB HBM3, MI325X con 256GB HBM3E, ahora MI355X con 288GB HBM3E y 8TB/s de ancho de banda de memoria en arquitectura CDNA de 4ª generación). La razón por la que las empresas mayormente no se han movido es que el stack de software — ROCm, cobertura de kernels, ports vLLM/SGLang, scheduling — ha tenido un atraso frente al ecosistema CUDA de Nvidia lo bastante grande para borrar la ventaja de hardware. La historia ahora es que los proveedores *neocloud* — TensorWave, MangoBoost, Crusoe — están cerrando ese gap ellos mismos en vez de esperar a AMD o a la comunidad open-source, y las pruebas públicas están empezando a aterrizar.

El resultado titular: el stack de software LLMBoost de MangoBoost alcanzó 103.182 tokens/seg offline en Llama2-70B en MLPerf Inference v5.0 a través de 32× MI300X (cuatro nodos de 8 GPUs), versus el récord previo del H100 de 82.749 TPS — cerca del 25% más de throughput. Acreditan tres cosas: paralelismo multidimensional, scheduling dinámico a través de los 8 GPUs por nodo, e interfaz simplificada que dicen corre 5,2-6,0× más rápido que vLLM estándar en el mismo hardware. El cálculo propio de MangoBoost (caveat: sus números, no auditados independientemente) — MI300X a $15-17K vs H100 a $32-40K — sale a aproximadamente 2,8× más throughput de inferencia por $1.000 gastados. TensorWave está entre los primeros cloud desplegando MI355X en producción, y corre el clúster de entrenamiento IA AMD más grande de Norteamérica con 8.192× MI325X bajo refrigeración líquida directa. El pricing cloud del MI355X en cinco proveedores (TensorWave, Crusoe, Vultr, y otros) actualmente está entre $2,29 y $8,60/hr por GPU.

El patrón es lo que los devs deberían seguir. El gap de AMD era infame — hardware capaz que nadie podía desplegar productivamente porque los kernels no estaban, los schedulers no estaban tuneados, el soporte de frameworks era irregular. La respuesta tradicional sería "AMD lo arregla" o "la comunidad open-source lo arregla" — ambas se han estado moviendo, pero lento. Los neoclouds son un tercer camino: proveedores verticalmente integrados que poseen tanto la optimización de software *como* la superficie de despliegue, capturando margen del gap costo-por-token que crean. Eso es estructuralmente distinto al stack Nvidia-más-hyperscaler, donde Nvidia posee el software y los hyperscalers corren el hardware. El camino de AMD está fragmentado por diseño, y esa fragmentación finalmente está jugando a su favor — cuando ningún dueño de plataforma controla la historia de optimización, los jugadores especializados pueden ganar en esfuerzo enfocado.

Si entregas inferencia LLM a escala y te bloqueaste en H100/H200 porque el camino AMD se veía muy rough, las matemáticas cambiaron. Prueba la carga de trabajo real en MI300X vía MangoBoost o MI355X vía TensorWave/Crusoe antes de firmar la próxima adquisición Nvidia. El número MLPerf no es la imagen completa — tu perfil de latencia, la cobertura de kernels para tu arquitectura de modelo específica, y la familiaridad ROCm de tu equipo de ops todas importan — pero ~2,8× throughput de inferencia por dólar es un número que justifica una pasada completa de benchmarking. El stack LLMBoost es la capa de software que carga el peso; si corres vLLM estándar en MI300X y obtienes números poco impresionantes, es porque vLLM estándar no es el camino optimizado. La señal no es "AMD ganó". Es "el argumento de lock-in de software para Nvidia es más débil de lo que era hace un año, y los neoclouds son la razón".

Los neoclouds desbloquean las GPU IA de AMD: récord MLPerf le gana al H100 en ~25% en Llama2-70B

Más noticias