涌现：定义与含义 — AI 维基

在达到一定规模或训练阈值后突然出现的能力——这些能力并未在训练中被明确教授。一个纯粹用于预测下一个词的模型，竟然能够执行算术运算、在未被教授的语言之间进行翻译，或编写可运行的代码。涌现是人工智能领域最受争议的现象之一：它是真实的相变现象，还是测量误差？

为什么重要

涌现问题是AI领域最大的疑问核心：我们能否预测更大模型将具备什么能力？如果能力确实以不可预测的方式在规模扩大时涌现，那么每个更大的模型都像是一个惊喜盒子。如果涌现只是测量方式带来的结果，那么规模扩大带来的变化可能比表面看起来更可预测。答案将影响从安全规划到投资决策的方方面面。

深度解析

关于“涌现能力”的争论始于2022年Google及其BIG-Bench项目（一个包含200多个任务的大型基准测试套件）合作发表的一篇论文。他们测试了不同规模的语言模型，发现了一个显著现象：在许多任务中，小型和中型模型的表现几乎接近随机水平，但一旦模型参数数量超过某个阈值，表现会突然大幅提升。Wei等人发表的论文《大型语言模型的涌现能力》绘制了这些曲线，呈现出戏剧性变化——能力似乎像开关一样突然开启，而非逐渐增强。这种描述方式引发了整个领域极大的兴趣。如果模型仅通过增大规模就能获得质的飞跃能力，那么扩大规模不仅是工程挑战，更可能是通向真正令人惊讶的智能的路径。

看似涌现的能力

这些例子极具说服力。GPT-3（1750亿参数）能够完成GPT-2（15亿参数）无法触及的少量样本算术任务。多步骤推理——要求模型串联逻辑推理——仅在超过特定规模的模型中出现。模型从未明确训练过的语言对之间的翻译能力在大规模下才显现。代码生成——即根据自然语言描述写出可运行程序的能力——在100亿到1000亿参数之间从无用变为实用。单词拼写还原任务——似乎需要某种内部拼写表示能力——在极窄的参数范围内从0%跃升至接近完美。这种模式在数十个BIG-Bench任务中重复出现：平缓、平缓、平缓，然后突然具备能力。这看起来像是规模扩大导致了真正的相变——模型能力的质变，而非仅仅是熟悉任务表现的量化提升。

斯坦福的反驳

2023年，斯坦福大学的Rylan Schaeffer、Brando Miranda和Sanmi Koyejo发表了一项直接挑战。他们的论点非常明确：涌现不是模型本身的属性，而是评估指标的属性。BIG-Bench中显示明显跃迁的任务大多使用了不连续的指标——如完全匹配准确率（几乎正确答案得不到任何分数）。一个模型从0.1%逐步提升到5%再到30%正确率，看起来像是什么都没做，什么都没做，然后突然表现良好，因为没有部分得分机制。当Schaeffer等人用连续指标（如对数似然或词级准确率）重新评估相同模型和任务时，这些跃迁消失了。性能随着规模扩大平稳且可预测地提升。“涌现”只是选择了无法检测渐进改进的指标所产生的结果。这不是一个次要的方法论问题。如果这个结论正确，意味着AI领域最激动人心的叙事——更大的模型会自发获得新能力——部分是测量幻觉。

安全社区为何关注

这场争论的利害远超学术兴趣。如果涌现是真实的——如果模型在特定规模下确实获得无法预见的能力——那么安全规划将面临根本性问题：你无法为无法预见的能力做准备。一个在1000亿参数下无害的模型可能在1万亿参数时突然具备说服力、欺骗策略或工具使用技能，而规模曲线中毫无预警。这就是为何需要谨慎、逐步扩大规模并在每一步进行广泛评估的核心论点。如果涌现主要是测量伪像，情况则更为安心：能力会平稳且可预测地提升，因此在较小规模的评估能提供关于更大模型表现的有意义信号。两种解读的安全影响几乎完全相反，这也是为何双方都真正致力于得出正确答案。

目前的状况

诚实地说，该领域尚未达成共识。斯坦福的批评被广泛接受为证明某些报告的涌现能力是测量伪像——这一点没有争议。但许多研究者仍认为该批评无法解释一切。某些能力，特别是涉及组合性（以新颖方式组合已学技能）、规划和多步骤推理的能力，确实表现出难以仅用指标选择解释的真正质变。对于决定扩大规模的实验室而言，实际影响是混合的：你可能比原始涌现论文所暗示的更可靠地预测下一步改进，但不应假设所有惊喜已被解释清楚。谨慎的做法——大多数前沿实验室都采用——是在每次规模提升时进行广泛评估，并保持暂停机制以应对意外情况。无论你将这些惊喜称为“涌现”还是“我们未能正确测量的可预测改进”，关键在于你是否准备应对它们。

涌现