Wired 的 Sheon Han 花了一天時間寫 CUDA,得出一個對 builder 有用的判斷:Nvidia 的護城河不是 H100 或 B200 晶片,而是 CUDA——Ian Buck 和 John Nickolls 在 Nvidia 於 2000 年代中期開始搭建的平台層,以及之後逐年疊加上去的函式庫。一次矩陣乘法在 PyTorch 裡用三行,在 CUDA 裡用了他五十多行。這個比例就是護城河。PyTorch、TensorFlow 和 JAX 全部都是 CUDA-first;在紙面上比 H100 擁有更多核心和記憶體的 AMD MI300X 上,同樣的 framework 表現更差——不是因為硬體慢,而是因為 kernel 是為 Nvidia 晶片調優的。獨立 benchmark 一直在印證這一點。
CUDA 之下是 PTX,Nvidia 的偽組語。DeepSeek V3 訓練曾經下沉到 CUDA 抽象之下,直接寫 PTX,擠出了 Nvidia 自家函式庫留在桌上的吞吐量。這是護城河可以被排空的存在性證明。問題在於:全球能做這種工作的工程師數量很少,而其中很大一部分在 Nvidia。AMD 的 ROCm 上線多年,其 subreddit 仍然像互助小組。Intel 的 oneAPI 命懸一線。OpenCL——曾經由 Apple、AMD、Qualcomm 聯手支持——從未真正起步。今天唯一可信的挑戰者是 Chris Lattner 主導的 Modular,正在打造 Mojo 和 MAX,但 Modular 距離在生產裡取代 PyTorch 對 CUDA 的依賴,還很遠。
對 wrapper 經濟和開放 stack 陣營而言,這是不光鮮的現實:每一句「我們也支援 AMD」都該讀作「我們容忍一段效能差距——推論時多半看不見,訓練時很難看」。vLLM、SGLang 這類 framework 預設調優都是 CUDA;AMD port 存在但落後。深堆疊層面的後果是:任何承諾「硬體中立推論」的服務商,都要以兩種方式之一繳 CUDA 稅——競爭晶片上跑更慢的 kernel,或者養一支自己寫 PTX 的工程團隊。後者正是 DeepSeek R1 與 V3 經濟性的支撐;很少有 lab 有這種人力來重複。即便是程式 agent 在 kernel 程式碼上也磕磕絆絆,這意味著「AI 自己寫 kernel」那條能溶解護城河的路徑還沒投入運轉。
週一早晨的 builder:如果你的 stack 全在 Nvidia 上,護城河本身就在以你在別處會失去的效能為代價付清帳單。如果你押注 AMD、Intel 或某家加速器新創公司來打破鎖定,關注兩個訊號——Modular 在真實訓練 pipeline(不是 benchmark)中的採用,以及 OpenAI 的 Triton 或 Meta 的 PyTorch 3 是否把 kernel 層抽得足夠遠,讓換硬體變得廉價。在這兩件事之一發生之前,Han 的結論仍然成立:Nvidia 是硬體公司,是因為它首先是軟體公司,而這層軟體已經有二十年的厚度。
