当神经网络进行训练时,它会调整组织成权重和偏置矩阵的数百万甚至数十亿个数字。每个权重控制信号从一个神经元传递到下一个神经元的强度;每个偏置则调整激活阈值。这些就是参数。训练通过梯度下降实现——模型做出预测,衡量预测的错误程度(损失),然后将每个参数朝着减少预测错误的方向微调一点点。在数十亿次迭代和数万亿个token上重复这一过程,这些参数最终会收敛成能够写诗、调试代码或解释量子力学的模型。这些参数不是查找表或数据库。它们是对训练数据中模式的压缩、分布式、有损表示,且没有单个参数本身“知道”任何东西。
现代人工智能的历史可以用参数数量来讲述。2019年,GPT-2拥有15亿个参数,人们认为它已经具备危险的能力。2020年,GPT-3带着1750亿个参数到来,彻底改写了规则。每次规模的跃升都解锁了小模型无法企及的能力——少样本学习、连贯的长篇写作、基础推理——实验室竞相训练更大的模型。这不仅仅是营销。OpenAI和DeepMind发布的缩放定律显示,参数数量、训练数据、计算预算和模型性能之间存在非常平滑的关系。更多的参数,更多的数据,更多的计算资源,意味着可预测的更好结果。这场军备竞赛在一段时间内是理性的。
并非所有参数都同等重要,也不是所有参数在每次输入时都会被激活。像Mixtral和(据称)GPT-4这样的混合专家(MoE)模型包含数十亿个总参数,但路由网络会为每个token选择仅有一部分“专家”子网络。Mixtral 8x7B总共有约470亿个参数,但每次前向传递仅激活约130亿个参数——这使你以较小模型的推理成本获得更大模型的质量。同时,DeepMind在2022年的Chinchilla缩放研究彻底颠覆了“越大越好”的假设。他们证明大多数大模型都训练不足:一个在更多数据上训练的较小模型可以超越在较少数据上训练的较大模型。Chinchilla在1.4万亿个token上训练了700亿个参数,击败了2800亿参数的Gopher。教训是,如果不了解训练所用的数据和计算量,仅凭参数数量几乎无法说明问题。
参数在GPU内存中存在直接且不可避免的成本。每个存储在fp16(16位浮点数)或bf16中的参数占用2字节。因此,一个70亿参数的模型仅存储权重就需要约14GB的显存——还不包括其他因素。量化为int8(8位整数)时,降至7GB;量化为4位时,降至约3.5GB。这是推理。训练则是完全不同的情况,因为你还需存储梯度(与参数大小相同)、优化器状态(通常Adam优化器为参数大小的2倍)以及反向传播的激活值。粗略的经验法则是:混合精度训练至少需要每个参数4到6字节,若包含完整优化器状态且无内存优化,可能达到每个参数16到20字节。这就是为什么一个70亿参数的模型在单块消费级GPU上推理运行良好,但训练却需要数据中心GPU集群的原因。
行业已基本超越了认为堆叠更多参数是提升模型的主要路径的观念。来自多个方向的证据不断累积:Chinchilla证明数据量与模型大小同样重要,像Llama 3和Qwen 2.5这样的开源权重模型显示,精心的数据筛选和更长的训练可以使700亿参数模型与更大模型竞争,而像MoE、状态空间模型和改进的注意力机制这样的架构创新则在每参数性能上超越了单纯的规模扩展。如今的前沿是训练效率、数据质量和后训练技术如RLHF和蒸馏——而不仅仅是让参数计数器上升。参数数量仍然是模型容量的粗略代理指标,但如今它越来越成为模型最不值得关注的方面。