GPU上的内存,与系统RAM分开。AI模型必须适合VRAM才能在GPU上运行。一个70亿参数、16位精度的模型需要约14GB的VRAM。消费级GPU有8-24GB;数据中心GPU(A100、H100)有40-80GB。VRAM几乎总是本地AI的瓶颈。
VRAM(显存)是焊接在GPU板上的物理独立内存芯片,与系统主内存(RAM)不同。其存在的原因是带宽——GPU与VRAM之间的连接带宽远大于CPU与系统内存之间的连接带宽。NVIDIA H100的HBM3(高带宽内存)堆栈可实现超过3.3 TB/s的内存带宽,而典型的DDR5系统可能只有50-80 GB/s。对于AI推理而言,瓶颈是为每个生成的token从内存中读取数十亿个权重参数,这种带宽差异就是为什么即使CPU有大量系统内存,运行模型在GPU上也比在CPU上快得多的原因。
计算模型的VRAM需求是简单的算术,但有几个需要注意的地方。基本公式:将参数数量乘以每参数的字节数(根据精度格式)。一个7B模型在FP16(每参数2字节)下仅权重就需要14GB。但VRAM中存储的不只是权重。推理过程中还需要空间存储KV缓存——来自注意力计算的键值对,其大小随上下文长度增长。对于一个7B模型在4,096-token上下文运行时,KV缓存可能增加1-2GB。如果扩展到128K tokens,仅KV缓存就可能消耗20-40GB。这就是为什么长上下文模型需要比参数数量预示的更多VRAM,以及即使在强大硬件上也存在上下文窗口限制的原因。
训练比推理消耗更多VRAM。除了存储模型权重,训练还需要存储优化器状态(Adam会为每个参数保留两个额外副本——这直接使权重大小增加3倍)、梯度(再增加1倍)和激活值(反向传播所需的中间值,随批量大小和序列长度扩展)。经验法则:使用BF16精度和Adam优化器进行训练,每参数需要约18-20字节。一个7B模型仅训练状态就需要约140GB——超过任何单块消费级GPU的容量。这就是为什么存在FSDP(完全分片数据并行)、梯度检查点和混合精度训练等技术:它们通过分配或减少内存使用,使你能在现有硬件上训练模型,代价是速度或计算开销。
消费级VRAM的格局定义了本地AI实际可实现的范围。NVIDIA的RTX 4090拥有24GB显存,是高端型号——足以舒适运行约14B参数的量化模型,或通过精细调校装入一个Q4量化30B模型。RTX 4070 Ti Super的16GB显存可良好运行7B-13B模型。RTX 4060的8GB显存是本地LLM推理的最低可用门槛——你只能运行小型模型或高度量化模型。AMD的RX 7900 XTX以较低价格提供24GB显存,但AI工作负载的软件支持较弱。数据中心方面,NVIDIA H100提供80GB,H200提供141GB,AMD MI300X提供192GB HBM3。对于任何单块GPU都无法容纳的模型,张量并行会将模型拆分到多块GPU上——但这需要GPU之间具备高速互连(如NVLink、InfiniBand),否则通信开销会严重降低性能。
一个从业者通过实践学到的微妙之处:你的总VRAM并非完全可用。GPU驱动、显示进程(如果同时驱动显示器)和CUDA上下文开销都会占用部分内存。在24GB显卡上,你可能实际上只有22-23GB可用。此外,VRAM碎片化可能导致即使总空闲内存看似充足,也无法分配一个大块连续内存。工具如nvidia-smi会显示当前VRAM使用情况,但关键数字是最大的连续空闲块,而非总空闲量。这就是为什么有时推理引擎会失败加载理论上应能容纳的模型——内存存在但分散了。