GPU 是整個 AI 產業的物理瓶頸。為什麼模型價格如此之高,為什麼有些供應商更快,為什麼會有全球性的晶片短缺 — 這一切都歸咎於 GPU 的供應和 VRAM。
GPU 在 AI 領域佔據主導地位的原因並不是單一計算的原始速度 — CPU 實際上處理單一運算的速度更快。優勢在於平行處理能力。現代 CPU 有 8-64 個核心;NVIDIA H100 有 16,896 個 CUDA 核心。神經網絡是基於矩陣乘法構建的,你會同時對數千個獨立數據點執行相同的運算。這正是 GPU 最初設計用來處理的工作負載 — 當時的任務是每幀計算數百萬像素的顏色。AI 社群只是偶然發現,相同的硬體架構也非常適合訓練神經網絡,現代 GPU 計算時代就此誕生。
NVIDIA 在 AI GPU 領域的優勢不僅僅是硬體 — 更是 CUDA,這個自 2006 年開始建立的軟體生態系統。CUDA 是讓開發者為 NVIDIA GPU 寫程式碼的框架,幾乎所有主要的 AI 架構(PyTorch、TensorFlow、JAX)都是建立在它之上。AMD 有競爭力的硬體 MI300X(192GB HBM3 記憶體),並有 ROCm 作為 CUDA 的替代方案,但生態系統的差距非常大。大多數 AI 研究人員和工程師已經花了數年時間寫 CUDA 程式碼,並不太願意轉換。
GPU 的市場有明顯的階層。在資料中心方面,NVIDIA 的 H100(80GB HBM3)自 2023 年以來一直是 AI 訓練的主力,H200(141GB HBM3e)則提供更大的記憶體以容納更大的模型。B200 和 GB200 代表下一代產品。針對推理任務,L40S(48GB GDDR6X)在不需要原始訓練吞吐量時提供較便宜的替代方案。在消費者端,配備 24GB GDDR6X 的 RTX 4090 是本地 AI 的王者 — 足夠的 VRAM 可以舒適地運行量化後的 14B 參數模型,但用它來訓練任何嚴肅的模型都顯得不切實際。消費者與資料中心之間的差距不僅是 VRAM — 更是記憶體頻寬。H100 的記憶體頻寬超過 3 TB/s,而 4090 僅有 1 TB/s,對於大型語言模型的推理來說,記憶體頻寬通常才是真正的瓶頸。
實務工作者很快就會學到一件事:「擁有 GPU」和「擁有足夠的 GPU」是兩種截然不同的情況。運行單一模型的推理是一回事,但訓練現代 LLM 需要多個 GPU 協同工作,並透過高速互連技術如 NVLink 或 InfiniBand 連接。一組 8 張 H100 的 DGX H100 節點約需 30 萬美元,可以訓練 70B 參數模型 — 但像 GPT-4 或 Claude 這樣的前沿模型可能需要數千張 GPU 處理數個月。這就是為什麼雲端 GPU 租賃(來自 Lambda、DataCrunch、CoreWeave 或超大型雲端服務供應商)成為標準做法:你租用一個叢集來進行訓練,完成後歸還,而不是購買兩年後就會過時的硬體。