Wired 的 Sheon Han 花了一天时间写 CUDA,得出一个对 builder 有用的判断:Nvidia 的护城河不是 H100 或 B200 芯片,而是 CUDA——Ian Buck 和 John Nickolls 在 Nvidia 于 2000 年代中期开始搭建的平台层,以及之后逐年叠加上去的库。一次矩阵乘法在 PyTorch 里用三行,在 CUDA 里用了他五十多行。这个比例就是护城河。PyTorch、TensorFlow 和 JAX 全部都是 CUDA-first;在纸面上比 H100 拥有更多核心和内存的 AMD MI300X 上,同样的框架表现更差——不是因为硬件慢,而是因为 kernel 是为 Nvidia 芯片调优的。独立 benchmark 一直在印证这一点。

CUDA 之下是 PTX,Nvidia 的伪汇编。DeepSeek V3 训练曾经下沉到 CUDA 抽象之下,直接写 PTX,挤出了 Nvidia 自家库留在台上的吞吐量。这是护城河可以被排空的存在性证明。问题在于:全球能做这种工作的工程师数量很少,而其中很大一部分在 Nvidia。AMD 的 ROCm 上线多年,其 subreddit 仍然像互助小组。Intel 的 oneAPI 命悬一线。OpenCL——曾经由 Apple、AMD、Qualcomm 联手支持——从未真正起步。今天唯一可信的挑战者是 Chris Lattner 主导的 Modular,正在打造 Mojo 和 MAX,但 Modular 距离在生产里替换掉 PyTorch 对 CUDA 的依赖,还很远。

对 wrapper 经济和开放 stack 阵营而言,这是不光鲜的现实:每一句"我们也支持 AMD"都该读作"我们容忍一段性能差距——推理时多半看不见,训练时很难看"。vLLM、SGLang 这类框架默认调优都是 CUDA;AMD 端口存在但落后。深栈层面的后果是:任何承诺"硬件中立推理"的服务商,都要以两种方式之一缴 CUDA 税——竞争芯片上跑更慢的 kernel,或者养一支自己写 PTX 的工程团队。后者正是 DeepSeek R1 与 V3 经济性的支撑;很少有 lab 有这种人力来重复。即便是编程 agent 在 kernel 代码上也磕磕绊绊,这意味着"AI 自己写 kernel"那条能溶解护城河的路径还没投入运转。

周一早晨的 builder:如果你的 stack 全在 Nvidia 上,护城河本身就在以你在别处会失去的性能为代价付清账单。如果你押注 AMD、Intel 或某家加速器创业公司来打破锁定,关注两个信号——Modular 在真实训练 pipeline(不是 benchmark)中的采用,以及 OpenAI 的 Triton 或 Meta 的 PyTorch 3 是否把 kernel 层抽得足够远,让换硬件变得廉价。在这两件事之一发生之前,Han 的结论仍然成立:Nvidia 是硬件公司,是因为它首先是软件公司,而这层软件已经有二十年的厚度。