“随机鹦鹉”这一说法源自一篇特定的论文——艾米丽·本德(Emily Bender)、提米特·杰布鲁(Timnit Gebru)、安吉丽娜·麦克米伦-马杰(Angelina McMillan-Major)和玛格丽特·米切尔(Margaret Mitchell)于2021年发表的《随机鹦鹉的危险:语言模型能太大吗?》。该论文的实际论点比这一流行语所暗示的更为复杂。本德和杰布鲁并非简单地声称语言模型是愚蠢的。他们提出了四个担忧:训练越来越大模型的环境成本、互联网训练数据中所包含的霸权世界观的编码、模型无法将其输出与现实意义挂钩,以及流畅文本可能误导人们相信其背后存在真正的理解。这篇论文之所以臭名昭著,不仅因为其内容,还因为其后续事件——谷歌在她提交内部审查后不久解雇了杰布鲁,几周后又解雇了米切尔。这场争议将原本可能成为标准学术贡献的论文,变成了关于企业控制人工智能伦理研究的焦点事件。
“随机鹦鹉”论点的强化版本具有说服力,诚实地面对人工智能需要承认这一点。语言模型确实会从训练数据中编码偏见——这不是一个可以修复的错误,而是从人类文本中学习的结构性特征。它们在任何传统意义上都没有基于现实意义的理解:一个模型可以详细描述草莓的味道,却从未体验过味道。前沿模型所需的计算资源确实非常庞大,即使每参数的环境成本在改善,其环境代价也是真实的。最重要的是,该论文关于“理解幻觉”的警告至今仍然成立。人们确实过度信任流畅的文本。每个部署在客户服务或医疗保健中的聊天机器人都证明了用户会将理解归因于系统,尽管这些系统实际上没有理解,至少不是人类所指的“理解”。
最有力的反驳来自论文发表后出现的能力。链式推理(chain-of-thought reasoning),即模型通过逐步推理得出正确答案的能力,难以用纯粹的统计模仿来解释。上下文学习(in-context learning)——即在提示中通过几个例子掌握全新任务的能力,而无需任何权重更新——超越了鹦鹉所能做到的任何事情。模型可以为新问题编写可运行的代码,翻译在有限平行数据中见过的语言,以及将指令推广到与其训练示例截然不同的情境。如果这仅仅是“模式匹配”,那么模式匹配比隐喻所暗示的要强大得多。问题不在于模型是否是模式匹配器(它们是),而在于足够规模的模式匹配是否能产生与推理功能等效的东西。
这就是讨论变得真正哲学化的地方,坦率地说,这个问题仍未解决。约翰·塞尔(John Searle)的中文房间思想实验——一个人遵循规则操作中文符号却不懂中文——直接对应于随机鹦鹉的争论。支持大型语言模型(LLM)能力的辩护者主张功能等效性:如果一个系统产生的输出与理解无法区分,其内部机制是否重要?批评者则认为,如果没有基于物理经验和真实意向性的根基,无论多少文本操作都不构成理解。双方都有道理,诚实的回答是,我们甚至对人类认知的“理解”也没有令人满意的共识定义。实用主义者的回应是,这可能并不重要。如果一个模型能诊断你代码中的错误,清晰地解释物理概念,或起草一份律师认为有用的法律简报,那么其“理解”的哲学地位就比输出是否正确和有用次要得多。
大多数严肃的人工智能研究人员已经超越了“鹦鹉与真正智能”的二元框架。现在更有意思的问题不再是大型语言模型是否理解语言,而是发生了何种认知,以及它能可靠地做什么和不能做什么。模型显然做了比鹦鹉更多的事情,但它们显然缺乏人类所拥有的东西:跨对话的持久记忆、具身经验、一致的信念,以及知道自己不知道的能力。随机鹦鹉这一标签仍然是对抗炒作的一种有用检查——提醒人们流畅的文本不等于真理,令人印象深刻的结果也不保证稳健的推理。但作为对大型语言模型所做事情的完整描述,它在GPT-4左右就不再足够了。该领域需要更好的隐喻,更重要的是,需要更好的实证工具来理解这些系统实际上学到了什么。