Zubnet AI学习Wiki › GPU
基础设施

GPU

别名:图形处理器
最初设计用于图形渲染的GPU,结果证明非常适合人工智能,因为它们可以同时进行数千个数学运算。训练和运行人工智能模型本质上是大规模矩阵乘法—正是GPU所擅长的领域。英伟达主导了这个市场。

为什么重要

GPU是整个AI行业的物理瓶颈。为什么模型价格如此之高,为什么有些提供商的速度更快,为什么会出现全球性的芯片短缺—归根结底还是GPU供应和VRAM的问题。

深度解析

GPU在AI领域占据主导地位的原因并不是单次计算的原始速度——实际上,CPU在处理单个操作时更快。优势在于并行性。现代CPU有8-64个核心;NVIDIA H100拥有16,896个CUDA核心。神经网络基于矩阵乘法构建,其中你同时对数千个独立数据点执行相同的操作。这正是GPU最初设计时的工作负载——当时它们的任务是每帧计算数百万像素的颜色。AI社区恰好发现,这种硬件架构也非常适合训练神经网络,从而催生了现代GPU计算时代。

CUDA护城河

NVIDIA在AI GPU领域的主导地位不仅仅是因为硬件——更因为CUDA,这是他们自2006年以来构建的软件生态系统。CUDA是允许开发者为NVIDIA GPU编写代码的编程框架,几乎所有主要的AI框架(PyTorch、TensorFlow、JAX)都是基于它构建的。AMD凭借其MI300X(192GB HBM3内存)制造了具有竞争力的硬件,并拥有作为CUDA替代品的ROCm,但生态系统差距巨大。大多数AI研究人员和工程师已经花费多年编写CUDA代码,并不急于将其迁移。Google的TPUs(Tensor Processing Units)是另一个主要玩家,但这些设备只能通过Google Cloud获得——你无法购买。

硬件层级

GPU领域有明确的层级。在数据中心方面,NVIDIA的H100(80GB HBM3)自2023年以来一直是AI训练的主力,H200(141GB HBM3e)则为更大的模型提供更多的内存。B200和GB200代表下一代。在推理方面,L40S(48GB GDDR6X)在不需要原始训练吞吐量时提供更便宜的替代方案。在消费级市场,配备24GB GDDR6X的RTX 4090是本地AI的王者——足够的显存可以舒适地运行量化后的14B参数模型,尽管在它上面训练任何严肃的模型都是不切实际的。消费级与数据中心之间的差距不仅仅是显存——而是内存带宽。H100的内存带宽超过3 TB/s,而4090仅为1 TB/s,对于大型语言模型的推理,内存带宽通常是真正的瓶颈。

超越单张显卡的扩展

从业者很快就会学到的一件事是,“拥有GPU”和“拥有足够的GPU”是两种截然不同的情况。运行单个模型的推理是一回事,但训练现代LLM需要多个GPU协同工作,通过高速互连(如NVLink或InfiniBand)连接。一个8-GPU H100节点(DGX H100)成本约为30万美元,可以训练70B参数模型——但像GPT-4或Claude这样的前沿模型可能需要数千张GPU运行数月。这就是为什么云GPU租赁(来自Lambda、DataCrunch、CoreWeave或超大规模云服务商)已成为标准做法:你租用一个集群用于训练,完成后再归还,而不是购买两年后就会过时的硬件。

相关概念

← 所有术语
← GAN 生成式 AI →
ESC