AMD a du silicium IA compétitif depuis deux ans (MI300X avec 192 Go HBM3, MI325X avec 256 Go HBM3E, maintenant MI355X avec 288 Go HBM3E et 8 To/s de bande passante mémoire sur l'architecture 4ᵉ génération CDNA). La raison pour laquelle les entreprises n'ont mostly pas migré, c'est que le stack logiciel — ROCm, couverture des kernels, ports vLLM/SGLang, scheduling — accuse un retard sur l'écosystème CUDA d'Nvidia assez gros pour effacer l'avantage matériel. L'histoire maintenant, c'est que les fournisseurs *neocloud* — TensorWave, MangoBoost, Crusoe — ferment ce gap eux-mêmes plutôt que d'attendre AMD ou la communauté open-source, et les preuves publiques commencent à atterrir.

Le résultat vedette : le stack logiciel LLMBoost de MangoBoost a atteint 103 182 tokens/sec offline sur Llama2-70B en MLPerf Inference v5.0 sur 32× MI300X (quatre nœuds 8-GPU), versus le record H100 précédent de 82 749 TPS — environ 25 % plus de throughput. Ils créditent trois choses : parallélisme multidimensionnel, scheduling dynamique entre les 8 GPU par nœud, et une interface streamlinée qu'ils prétendent rouler 5,2-6,0× plus vite que vLLM standard sur le même matériel. Le calcul de MangoBoost (caveat : leurs chiffres, pas audités indépendamment) — MI300X à 15-17 k$ vs H100 à 32-40 k$ — donne environ 2,8× plus de throughput d'inférence par 1 000 $ dépensés. TensorWave est parmi les premiers cloud à déployer le MI355X en production, et roule le plus gros cluster d'entraînement IA AMD en Amérique du Nord à 8 192× MI325X sous refroidissement liquide direct. Le pricing cloud du MI355X chez cinq fournisseurs (TensorWave, Crusoe, Vultr, et d'autres) tourne actuellement entre 2,29 $ et 8,60 $/h par GPU.

Le pattern, c'est ce que les développeurs devraient suivre. Le gap d'AMD était infâme — du matériel capable que personne n'arrivait à déployer productivement parce que les kernels n'étaient pas là, les schedulers pas tunés, le support des frameworks inégal. La réponse traditionnelle serait « AMD le règle » ou « la communauté open-source le règle » — les deux bougent, mais lentement. Les neoclouds, c'est un troisième chemin : des fournisseurs intégrés verticalement qui possèdent à la fois l'optimisation logicielle *et* la surface de déploiement, captant la marge depuis le gap coût-par-token qu'ils créent. C'est structurellement différent du stack Nvidia-plus-hyperscaler, où Nvidia possède le logiciel et les hyperscalers font rouler le matériel. Le chemin d'AMD est fragmenté par design, et cette fragmentation joue finalement en sa faveur — quand aucun propriétaire de plateforme ne contrôle l'histoire d'optimisation, les joueurs spécialisés peuvent gagner sur l'effort ciblé.

Si tu livres de l'inférence LLM à grande échelle et que tu t'es fait verrouiller sur H100/H200 parce que le chemin AMD avait l'air trop rough, le calcul a changé. Teste la vraie charge de travail sur MI300X via MangoBoost ou MI355X via TensorWave/Crusoe avant de signer la prochaine acquisition Nvidia. Le chiffre MLPerf n'est pas l'image complète — ton profil de latence, la couverture des kernels pour ton architecture de modèle spécifique, et la familiarité ROCm de ton équipe ops comptent toutes — mais ~2,8× de throughput d'inférence par dollar, c'est un chiffre qui justifie un benchmark complet. Le stack LLMBoost est la couche logicielle porteuse; si tu fais rouler vLLM standard sur MI300X et que tu obtiens des chiffres décevants, c'est parce que vLLM standard n'est pas le chemin optimisé. Le signal, ce n'est pas « AMD a gagné ». C'est « l'argument du verrouillage logiciel pour Nvidia est plus faible qu'il l'était il y a un an, et les neoclouds en sont la raison ».