关于“涌现能力”的争论始于2022年Google及其BIG-Bench项目(一个包含200多个任务的大型基准测试套件)合作发表的一篇论文。他们测试了不同规模的语言模型,发现了一个显著现象:在许多任务中,小型和中型模型的表现几乎接近随机水平,但一旦模型参数数量超过某个阈值,表现会突然大幅提升。Wei等人发表的论文《大型语言模型的涌现能力》绘制了这些曲线,呈现出戏剧性变化——能力似乎像开关一样突然开启,而非逐渐增强。这种描述方式引发了整个领域极大的兴趣。如果模型仅通过增大规模就能获得质的飞跃能力,那么扩大规模不仅是工程挑战,更可能是通向真正令人惊讶的智能的路径。
这些例子极具说服力。GPT-3(1750亿参数)能够完成GPT-2(15亿参数)无法触及的少量样本算术任务。多步骤推理——要求模型串联逻辑推理——仅在超过特定规模的模型中出现。模型从未明确训练过的语言对之间的翻译能力在大规模下才显现。代码生成——即根据自然语言描述写出可运行程序的能力——在100亿到1000亿参数之间从无用变为实用。单词拼写还原任务——似乎需要某种内部拼写表示能力——在极窄的参数范围内从0%跃升至接近完美。这种模式在数十个BIG-Bench任务中重复出现:平缓、平缓、平缓,然后突然具备能力。这看起来像是规模扩大导致了真正的相变——模型能力的质变,而非仅仅是熟悉任务表现的量化提升。
2023年,斯坦福大学的Rylan Schaeffer、Brando Miranda和Sanmi Koyejo发表了一项直接挑战。他们的论点非常明确:涌现不是模型本身的属性,而是评估指标的属性。BIG-Bench中显示明显跃迁的任务大多使用了不连续的指标——如完全匹配准确率(几乎正确答案得不到任何分数)。一个模型从0.1%逐步提升到5%再到30%正确率,看起来像是什么都没做,什么都没做,然后突然表现良好,因为没有部分得分机制。当Schaeffer等人用连续指标(如对数似然或词级准确率)重新评估相同模型和任务时,这些跃迁消失了。性能随着规模扩大平稳且可预测地提升。“涌现”只是选择了无法检测渐进改进的指标所产生的结果。这不是一个次要的方法论问题。如果这个结论正确,意味着AI领域最激动人心的叙事——更大的模型会自发获得新能力——部分是测量幻觉。
这场争论的利害远超学术兴趣。如果涌现是真实的——如果模型在特定规模下确实获得无法预见的能力——那么安全规划将面临根本性问题:你无法为无法预见的能力做准备。一个在1000亿参数下无害的模型可能在1万亿参数时突然具备说服力、欺骗策略或工具使用技能,而规模曲线中毫无预警。这就是为何需要谨慎、逐步扩大规模并在每一步进行广泛评估的核心论点。如果涌现主要是测量伪像,情况则更为安心:能力会平稳且可预测地提升,因此在较小规模的评估能提供关于更大模型表现的有意义信号。两种解读的安全影响几乎完全相反,这也是为何双方都真正致力于得出正确答案。
诚实地说,该领域尚未达成共识。斯坦福的批评被广泛接受为证明某些报告的涌现能力是测量伪像——这一点没有争议。但许多研究者仍认为该批评无法解释一切。某些能力,特别是涉及组合性(以新颖方式组合已学技能)、规划和多步骤推理的能力,确实表现出难以仅用指标选择解释的真正质变。对于决定扩大规模的实验室而言,实际影响是混合的:你可能比原始涌现论文所暗示的更可靠地预测下一步改进,但不应假设所有惊喜已被解释清楚。谨慎的做法——大多数前沿实验室都采用——是在每次规模提升时进行广泛评估,并保持暂停机制以应对意外情况。无论你将这些惊喜称为“涌现”还是“我们未能正确测量的可预测改进”,关键在于你是否准备应对它们。