AMD 在 AI 硅这一头,已经具备竞争力两年了(MI300X 192GB HBM3、MI325X 256GB HBM3E、现在的 MI355X 288GB HBM3E,8TB/s 内存带宽,基于第 4 代 CDNA 架构)。企业大体没迁移过来,原因不在硅,而在软件栈 —— ROCm、kernel 覆盖、vLLM/SGLang 的移植、调度,这些相对 Nvidia CUDA 生态的差距,大到足以把硬件优势抹平。现在的故事是:那些被叫做「neocloud」的供应商 —— TensorWave、MangoBoost、Crusoe —— 不再等 AMD,也不再等开源社区,自己动手把这个差距填上,公开的证据这两个月开始陆续落地。

头条数字:MangoBoost 的 LLMBoost 软件栈,在 32 张 MI300X(4 个 8 卡节点)上,在 MLPerf Inference v5.0 的 Llama2-70B 离线类目上跑出 103,182 tokens/sec,比此前 H100 的纪录 82,749 TPS 高约 25%。他们把这个归功于三件事:多维并行、节点内 8 卡间的动态调度、以及一套精简过的接口,他们声称在同一份硬件上跑得比标准 vLLM 快 5.2 到 6.0 倍。MangoBoost 自己算的账(注意:这是他们的数据,没有独立审计)—— MI300X 单价 1.5–1.7 万美元 vs H100 的 3.2–4 万美元 —— 大致换算下来,每花 1,000 美元能多拿大约 2.8 倍的推理吞吐。TensorWave 是首批把 MI355X 上线生产的几家云之一,在北美跑着最大的 AMD AI 训练集群:8,192 张 MI325X,直接液冷。MI355X 在五家供应商(TensorWave、Crusoe、Vultr 及其他)上的小时单价目前在 2.29 到 8.60 美元/卡之间。

值得开发者跟踪的不是单一数字,而是这个模式。AMD 的差距在业内是出了名的 —— 硬件能打,但没人能把它真正用起来,因为 kernel 不到位、调度没调过、框架支持参差不齐。传统的两种答案是「AMD 自己修」或「开源社区修」—— 两边都在动,只是慢。Neocloud 是第三条路:垂直整合的供应商,既掌握软件优化,*也*掌握部署面,从他们自己制造出来的「每 token 成本差」里捞利润。这跟 Nvidia + 超大规模云厂商的栈在结构上完全不同 —— 那种栈里软件归 Nvidia,硬件归 AWS/Azure/GCP 跑。AMD 这条路本来就是「设计上分散」,而这种分散反过来正在成为优势 —— 当没有一个平台主控制优化叙事时,聚焦的小玩家可以靠专注赢下来。

如果你在规模化 LLM 推理交付里被锁死在 H100/H200 上,只是因为当年 AMD 路看起来太糙,那数学已经变了。在签下一笔 Nvidia 采购单之前,先把真实工作负载跑一次:在 MI300X 上走 MangoBoost,在 MI355X 上走 TensorWave 或 Crusoe。MLPerf 的数字不是全貌 —— 你的延迟分布、你具体模型架构的 kernel 覆盖率、你运维团队的 ROCm 熟悉度,这些都重要 —— 但「每美元 2.8 倍推理吞吐」这种数字,值得做一轮完整 benchmark。LLMBoost 是承重的那一层软件;如果你在 MI300X 上跑标准 vLLM 数据不好看,那是因为标准 vLLM 不是被优化过的那条路。这件事的信号不是「AMD 赢了」。是「Nvidia 的软件锁定论调,比一年前弱了,而 neocloud 是原因。」