Zubnet AI学习Wiki › 涌现
基础

涌现

别名:涌现能力、涌现行为
在达到一定规模或训练阈值后突然出现的能力——这些能力并未在训练中被明确教授。一个纯粹用于预测下一个词的模型,竟然能够执行算术运算、在未被教授的语言之间进行翻译,或编写可运行的代码。涌现是人工智能领域最受争议的现象之一:它是真实的相变现象,还是测量误差?

为什么重要

涌现问题是AI领域最大的疑问核心:我们能否预测更大模型将具备什么能力?如果能力确实以不可预测的方式在规模扩大时涌现,那么每个更大的模型都像是一个惊喜盒子。如果涌现只是测量方式带来的结果,那么规模扩大带来的变化可能比表面看起来更可预测。答案将影响从安全规划到投资决策的方方面面。

深度解析

关于“涌现能力”的争论始于2022年Google及其BIG-Bench项目(一个包含200多个任务的大型基准测试套件)合作发表的一篇论文。他们测试了不同规模的语言模型,发现了一个显著现象:在许多任务中,小型和中型模型的表现几乎接近随机水平,但一旦模型参数数量超过某个阈值,表现会突然大幅提升。Wei等人发表的论文《大型语言模型的涌现能力》绘制了这些曲线,呈现出戏剧性变化——能力似乎像开关一样突然开启,而非逐渐增强。这种描述方式引发了整个领域极大的兴趣。如果模型仅通过增大规模就能获得质的飞跃能力,那么扩大规模不仅是工程挑战,更可能是通向真正令人惊讶的智能的路径。

看似涌现的能力

这些例子极具说服力。GPT-3(1750亿参数)能够完成GPT-2(15亿参数)无法触及的少量样本算术任务。多步骤推理——要求模型串联逻辑推理——仅在超过特定规模的模型中出现。模型从未明确训练过的语言对之间的翻译能力在大规模下才显现。代码生成——即根据自然语言描述写出可运行程序的能力——在100亿到1000亿参数之间从无用变为实用。单词拼写还原任务——似乎需要某种内部拼写表示能力——在极窄的参数范围内从0%跃升至接近完美。这种模式在数十个BIG-Bench任务中重复出现:平缓、平缓、平缓,然后突然具备能力。这看起来像是规模扩大导致了真正的相变——模型能力的质变,而非仅仅是熟悉任务表现的量化提升。

斯坦福的反驳

2023年,斯坦福大学的Rylan Schaeffer、Brando Miranda和Sanmi Koyejo发表了一项直接挑战。他们的论点非常明确:涌现不是模型本身的属性,而是评估指标的属性。BIG-Bench中显示明显跃迁的任务大多使用了不连续的指标——如完全匹配准确率(几乎正确答案得不到任何分数)。一个模型从0.1%逐步提升到5%再到30%正确率,看起来像是什么都没做,什么都没做,然后突然表现良好,因为没有部分得分机制。当Schaeffer等人用连续指标(如对数似然或词级准确率)重新评估相同模型和任务时,这些跃迁消失了。性能随着规模扩大平稳且可预测地提升。“涌现”只是选择了无法检测渐进改进的指标所产生的结果。这不是一个次要的方法论问题。如果这个结论正确,意味着AI领域最激动人心的叙事——更大的模型会自发获得新能力——部分是测量幻觉。

安全社区为何关注

这场争论的利害远超学术兴趣。如果涌现是真实的——如果模型在特定规模下确实获得无法预见的能力——那么安全规划将面临根本性问题:你无法为无法预见的能力做准备。一个在1000亿参数下无害的模型可能在1万亿参数时突然具备说服力、欺骗策略或工具使用技能,而规模曲线中毫无预警。这就是为何需要谨慎、逐步扩大规模并在每一步进行广泛评估的核心论点。如果涌现主要是测量伪像,情况则更为安心:能力会平稳且可预测地提升,因此在较小规模的评估能提供关于更大模型表现的有意义信号。两种解读的安全影响几乎完全相反,这也是为何双方都真正致力于得出正确答案。

目前的状况

诚实地说,该领域尚未达成共识。斯坦福的批评被广泛接受为证明某些报告的涌现能力是测量伪像——这一点没有争议。但许多研究者仍认为该批评无法解释一切。某些能力,特别是涉及组合性(以新颖方式组合已学技能)、规划和多步骤推理的能力,确实表现出难以仅用指标选择解释的真正质变。对于决定扩大规模的实验室而言,实际影响是混合的:你可能比原始涌现论文所暗示的更可靠地预测下一步改进,但不应假设所有惊喜已被解释清楚。谨慎的做法——大多数前沿实验室都采用——是在每次规模提升时进行广泛评估,并保持暂停机制以应对意外情况。无论你将这些惊喜称为“涌现”还是“我们未能正确测量的可预测改进”,关键在于你是否准备应对它们。

相关概念

← 所有术语
← 嵌入 端点 →
ESC