AMD 在 AI 矽這一頭,已經具備競爭力兩年了(MI300X 192GB HBM3、MI325X 256GB HBM3E、現在的 MI355X 288GB HBM3E,8TB/s 記憶體頻寬,基於第 4 代 CDNA 架構)。企業大體沒遷移過來,原因不在矽,而在軟體棧 —— ROCm、kernel 涵蓋、vLLM/SGLang 的移植、排程,這些相對 Nvidia CUDA 生態的差距,大到足以把硬體優勢抹平。現在的故事是:那些被叫做「neocloud」的供應商 —— TensorWave、MangoBoost、Crusoe —— 不再等 AMD,也不再等開源社群,自己動手把這個差距填上,公開的證據這兩個月開始陸續落地。
頭條數字:MangoBoost 的 LLMBoost 軟體棧,在 32 張 MI300X(4 個 8 卡節點)上,在 MLPerf Inference v5.0 的 Llama2-70B 離線類目上跑出 103,182 tokens/sec,比此前 H100 的紀錄 82,749 TPS 高約 25%。他們把這個歸功於三件事:多維平行、節點內 8 卡間的動態排程、以及一套精簡過的介面,他們聲稱在同一份硬體上跑得比標準 vLLM 快 5.2 到 6.0 倍。MangoBoost 自己算的帳(注意:這是他們的資料,沒有獨立稽核)—— MI300X 單價 1.5–1.7 萬美元 vs H100 的 3.2–4 萬美元 —— 大致換算下來,每花 1,000 美元能多拿大約 2.8 倍的推論吞吐量。TensorWave 是首批把 MI355X 上線正式環境的幾家雲之一,在北美跑著最大的 AMD AI 訓練叢集:8,192 張 MI325X,直接液冷。MI355X 在五家供應商(TensorWave、Crusoe、Vultr 及其他)上的小時單價目前在 2.29 到 8.60 美元/卡之間。
值得開發者追蹤的不是單一數字,而是這個模式。AMD 的差距在業內是出了名的 —— 硬體能打,但沒人能把它真正用起來,因為 kernel 不到位、排程沒調過、框架支援參差不齊。傳統的兩種答案是「AMD 自己修」或「開源社群修」—— 兩邊都在動,只是慢。Neocloud 是第三條路:垂直整合的供應商,既掌握軟體最佳化,*也*掌握部署面,從他們自己製造出來的「每 token 成本差」裡撈利潤。這跟 Nvidia + 超大規模雲廠商的棧在結構上完全不同 —— 那種棧裡軟體歸 Nvidia,硬體歸 AWS/Azure/GCP 跑。AMD 這條路本來就是「設計上分散」,而這種分散反過來正在成為優勢 —— 當沒有一個平台主控制最佳化敘事時,聚焦的小玩家可以靠專注贏下來。
如果你在規模化 LLM 推論交付裡被鎖死在 H100/H200 上,只是因為當年 AMD 路看起來太糙,那數學已經變了。在簽下一筆 Nvidia 採購單之前,先把真實工作負載跑一次:在 MI300X 上走 MangoBoost,在 MI355X 上走 TensorWave 或 Crusoe。MLPerf 的數字不是全貌 —— 你的延遲分布、你具體模型架構的 kernel 涵蓋率、你維運團隊的 ROCm 熟悉度,這些都重要 —— 但「每美元 2.8 倍推論吞吐」這種數字,值得做一輪完整 benchmark。LLMBoost 是承重的那一層軟體;如果你在 MI300X 上跑標準 vLLM 資料不好看,那是因為標準 vLLM 不是被最佳化過的那條路。這件事的訊號不是「AMD 贏了」。是「Nvidia 的軟體鎖定論調,比一年前弱了,而 neocloud 是原因。」
