VRAM：定义与含义 — AI 维基

GPU上的内存，与系统RAM分开。AI模型必须适合VRAM才能在GPU上运行。一个70亿参数、16位精度的模型需要约14GB的VRAM。消费级GPU有8-24GB；数据中心GPU（A100、H100）有40-80GB。VRAM几乎总是本地AI的瓶颈。

为什么重要

VRAM决定了你可以运行的模型。这就是为什么存在量化（将模型缩小以适应），为什么MoE模型很棘手（所有专家都必须装入VRAM），以及为什么GPU价格与内存容量呈陡峭增长。“它能否装入VRAM？”是自托管AI的第一个问题。

深度解析

VRAM（显存）是焊接在GPU板上的物理独立内存芯片，与系统主内存（RAM）不同。其存在的原因是带宽——GPU与VRAM之间的连接带宽远大于CPU与系统内存之间的连接带宽。NVIDIA H100的HBM3（高带宽内存）堆栈可实现超过3.3 TB/s的内存带宽，而典型的DDR5系统可能只有50-80 GB/s。对于AI推理而言，瓶颈是为每个生成的token从内存中读取数十亿个权重参数，这种带宽差异就是为什么即使CPU有大量系统内存，运行模型在GPU上也比在CPU上快得多的原因。

预算规划

计算模型的VRAM需求是简单的算术，但有几个需要注意的地方。基本公式：将参数数量乘以每参数的字节数（根据精度格式）。一个7B模型在FP16（每参数2字节）下仅权重就需要14GB。但VRAM中存储的不只是权重。推理过程中还需要空间存储KV缓存——来自注意力计算的键值对，其大小随上下文长度增长。对于一个7B模型在4,096-token上下文运行时，KV缓存可能增加1-2GB。如果扩展到128K tokens，仅KV缓存就可能消耗20-40GB。这就是为什么长上下文模型需要比参数数量预示的更多VRAM，以及即使在强大硬件上也存在上下文窗口限制的原因。

训练与推理

训练比推理消耗更多VRAM。除了存储模型权重，训练还需要存储优化器状态（Adam会为每个参数保留两个额外副本——这直接使权重大小增加3倍）、梯度（再增加1倍）和激活值（反向传播所需的中间值，随批量大小和序列长度扩展）。经验法则：使用BF16精度和Adam优化器进行训练，每参数需要约18-20字节。一个7B模型仅训练状态就需要约140GB——超过任何单块消费级GPU的容量。这就是为什么存在FSDP（完全分片数据并行）、梯度检查点和混合精度训练等技术：它们通过分配或减少内存使用，使你能在现有硬件上训练模型，代价是速度或计算开销。

硬件格局

消费级VRAM的格局定义了本地AI实际可实现的范围。NVIDIA的RTX 4090拥有24GB显存，是高端型号——足以舒适运行约14B参数的量化模型，或通过精细调校装入一个Q4量化30B模型。RTX 4070 Ti Super的16GB显存可良好运行7B-13B模型。RTX 4060的8GB显存是本地LLM推理的最低可用门槛——你只能运行小型模型或高度量化模型。AMD的RX 7900 XTX以较低价格提供24GB显存，但AI工作负载的软件支持较弱。数据中心方面，NVIDIA H100提供80GB，H200提供141GB，AMD MI300X提供192GB HBM3。对于任何单块GPU都无法容纳的模型，张量并行会将模型拆分到多块GPU上——但这需要GPU之间具备高速互连（如NVLink、InfiniBand），否则通信开销会严重降低性能。

隐藏的税费

一个从业者通过实践学到的微妙之处：你的总VRAM并非完全可用。GPU驱动、显示进程（如果同时驱动显示器）和CUDA上下文开销都会占用部分内存。在24GB显卡上，你可能实际上只有22-23GB可用。此外，VRAM碎片化可能导致即使总空闲内存看似充足，也无法分配一个大块连续内存。工具如nvidia-smi会显示当前VRAM使用情况，但关键数字是最大的连续空闲块，而非总空闲量。这就是为什么有时推理引擎会失败加载理论上应能容纳的模型——内存存在但分散了。

VRAM