GPU：定义与含义 — AI 维基

最初设计用于图形渲染的GPU，结果证明非常适合人工智能，因为它们可以同时进行数千个数学运算。训练和运行人工智能模型本质上是大规模矩阵乘法—正是GPU所擅长的领域。英伟达主导了这个市场。

为什么重要

GPU是整个AI行业的物理瓶颈。为什么模型价格如此之高，为什么有些提供商的速度更快，为什么会出现全球性的芯片短缺—归根结底还是GPU供应和VRAM的问题。

深度解析

GPU在AI领域占据主导地位的原因并不是单次计算的原始速度——实际上，CPU在处理单个操作时更快。优势在于并行性。现代CPU有8-64个核心；NVIDIA H100拥有16,896个CUDA核心。神经网络基于矩阵乘法构建，其中你同时对数千个独立数据点执行相同的操作。这正是GPU最初设计时的工作负载——当时它们的任务是每帧计算数百万像素的颜色。AI社区恰好发现，这种硬件架构也非常适合训练神经网络，从而催生了现代GPU计算时代。

CUDA护城河

NVIDIA在AI GPU领域的主导地位不仅仅是因为硬件——更因为CUDA，这是他们自2006年以来构建的软件生态系统。CUDA是允许开发者为NVIDIA GPU编写代码的编程框架，几乎所有主要的AI框架（PyTorch、TensorFlow、JAX）都是基于它构建的。AMD凭借其MI300X（192GB HBM3内存）制造了具有竞争力的硬件，并拥有作为CUDA替代品的ROCm，但生态系统差距巨大。大多数AI研究人员和工程师已经花费多年编写CUDA代码，并不急于将其迁移。Google的TPUs（Tensor Processing Units）是另一个主要玩家，但这些设备只能通过Google Cloud获得——你无法购买。

硬件层级

GPU领域有明确的层级。在数据中心方面，NVIDIA的H100（80GB HBM3）自2023年以来一直是AI训练的主力，H200（141GB HBM3e）则为更大的模型提供更多的内存。B200和GB200代表下一代。在推理方面，L40S（48GB GDDR6X）在不需要原始训练吞吐量时提供更便宜的替代方案。在消费级市场，配备24GB GDDR6X的RTX 4090是本地AI的王者——足够的显存可以舒适地运行量化后的14B参数模型，尽管在它上面训练任何严肃的模型都是不切实际的。消费级与数据中心之间的差距不仅仅是显存——而是内存带宽。H100的内存带宽超过3 TB/s，而4090仅为1 TB/s，对于大型语言模型的推理，内存带宽通常是真正的瓶颈。

超越单张显卡的扩展

从业者很快就会学到的一件事是，“拥有GPU”和“拥有足够的GPU”是两种截然不同的情况。运行单个模型的推理是一回事，但训练现代LLM需要多个GPU协同工作，通过高速互连（如NVLink或InfiniBand）连接。一个8-GPU H100节点（DGX H100）成本约为30万美元，可以训练70B参数模型——但像GPT-4或Claude这样的前沿模型可能需要数千张GPU运行数月。这就是为什么云GPU租赁（来自Lambda、DataCrunch、CoreWeave或超大规模云服务商）已成为标准做法：你租用一个集群用于训练，完成后再归还，而不是购买两年后就会过时的硬件。

GPU

为什么重要

深度解析

CUDA护城河

硬件层级

超越单张显卡的扩展

相关概念