GPU：定義與含義 — AI 維基

最初設計用於渲染圖形的 GPU，結果證明其非常適合用於 AI，因為它們可以同時執行數千個數學運算。訓練和運行 AI 模型基本上就是大規模矩陣乘法 — 這正是 GPU 所設計用來處理的。NVIDIA 在這個市場中佔據主導地位。

為什麼重要

GPU 是整個 AI 產業的物理瓶頸。為什麼模型價格如此之高，為什麼有些供應商更快，為什麼會有全球性的晶片短缺 — 這一切都歸咎於 GPU 的供應和 VRAM。

深度解析

GPU 在 AI 領域佔據主導地位的原因並不是單一計算的原始速度 — CPU 實際上處理單一運算的速度更快。優勢在於平行處理能力。現代 CPU 有 8-64 個核心；NVIDIA H100 有 16,896 個 CUDA 核心。神經網絡是基於矩陣乘法構建的，你會同時對數千個獨立數據點執行相同的運算。這正是 GPU 最初設計用來處理的工作負載 — 當時的任務是每幀計算數百萬像素的顏色。AI 社群只是偶然發現，相同的硬體架構也非常適合訓練神經網絡，現代 GPU 計算時代就此誕生。

CUDA 壁壘

NVIDIA 在 AI GPU 領域的優勢不僅僅是硬體 — 更是 CUDA，這個自 2006 年開始建立的軟體生態系統。CUDA 是讓開發者為 NVIDIA GPU 寫程式碼的框架，幾乎所有主要的 AI 架構（PyTorch、TensorFlow、JAX）都是建立在它之上。AMD 有競爭力的硬體 MI300X（192GB HBM3 記憶體），並有 ROCm 作為 CUDA 的替代方案，但生態系統的差距非常大。大多數 AI 研究人員和工程師已經花了數年時間寫 CUDA 程式碼，並不太願意轉換。

硬體階層

GPU 的市場有明顯的階層。在資料中心方面，NVIDIA 的 H100（80GB HBM3）自 2023 年以來一直是 AI 訓練的主力，H200（141GB HBM3e）則提供更大的記憶體以容納更大的模型。B200 和 GB200 代表下一代產品。針對推理任務，L40S（48GB GDDR6X）在不需要原始訓練吞吐量時提供較便宜的替代方案。在消費者端，配備 24GB GDDR6X 的 RTX 4090 是本地 AI 的王者 — 足夠的 VRAM 可以舒適地運行量化後的 14B 參數模型，但用它來訓練任何嚴肅的模型都顯得不切實際。消費者與資料中心之間的差距不僅是 VRAM — 更是記憶體頻寬。H100 的記憶體頻寬超過 3 TB/s，而 4090 僅有 1 TB/s，對於大型語言模型的推理來說，記憶體頻寬通常才是真正的瓶頸。

超越單張顯卡的擴展

實務工作者很快就會學到一件事：「擁有 GPU」和「擁有足夠的 GPU」是兩種截然不同的情況。運行單一模型的推理是一回事，但訓練現代 LLM 需要多個 GPU 協同工作，並透過高速互連技術如 NVLink 或 InfiniBand 連接。一組 8 張 H100 的 DGX H100 節點約需 30 萬美元，可以訓練 70B 參數模型 — 但像 GPT-4 或 Claude 這樣的前沿模型可能需要數千張 GPU 處理數個月。這就是為什麼雲端 GPU 租賃（來自 Lambda、DataCrunch、CoreWeave 或超大型雲端服務供應商）成為標準做法：你租用一個叢集來進行訓練，完成後歸還，而不是購買兩年後就會過時的硬體。

GPU

為什麼重要

深度解析

CUDA 壁壘

硬體階層

超越單張顯卡的擴展

相關概念