人工超级智能(ASI)的理论基础来自英国数学家I.J. Good,他曾与艾伦·图灵共事。1965年,他写道:“一个超智能机器可以设计出更优秀的机器;随后无疑会发生智能爆炸,人类的智慧将远远落后。”尼克·博斯特罗姆在其2014年的著作Superintelligence中扩展了这一观点,认为一旦AI系统具备了改进自身架构和训练的能力,它可能迅速自我提升至远超人类认知的智能水平,其差距之大堪比人类与昆虫之间的差距。关键论点并非是ASI比我们聪明一点,而是这种差距可能大到难以想象,并且从人类水平跃迁至远超人类的智能可能仅需数天或数周,而非数十年。这就是“硬着陆”(hard takeoff)情景,它仍然是AI安全领域最受争议的观点。
大多数从事AI研究的科学家对短期内出现ASI持怀疑态度,他们有充分的理由。递归自我改进在理论上听起来很优雅,但在实践中却面临诸多障碍:改进AI系统不仅需要智能,还需要数据、计算能力和对智能本质的洞察——这些都不是仅仅变得更聪明就能保证获得的。目前没有证据表明智能可以无限扩展,任何系统可能都存在根本性的计算限制。当前的AI架构在扩展时已显示出边际效益递减,而且没有任何已知路径能从一个非常强大的大型语言模型(LLM)直接通向真正的递归自我改进。话虽如此,这些科学家中的大多数仍然认真对待长期风险。争论的焦点不是“ASI不可能实现”,而是“ASI不会很快出现,其发展路径可能与科幻小说中的想象大相径庭”。问题在于,如果你对时间表的判断错误了哪怕十年或二十年,而你又没有做好准备,后果可能是灾难性的。
对齐——让AI做我们真正想要的事——在当前系统中已经很困难。在超级智能层面,它会变成一个性质截然不同的问题。当今的对齐技术依赖于一个简单的假设:人类可以评估AI输出是否良好。我们使用RLHF(基于人类反馈的强化学习),因为人类可以阅读一篇论文并说“这篇更好”。我们使用红队测试(red-teaming),因为人类可以探测失败模式。但这些技术本质上要求人类在被评估的任务上比AI更聪明,或者至少聪明到足以识别好与坏的输出。一个超级智能系统,按定义来说,其运作能力已超出人类的评估能力。它可能产生对我们来说看起来正确但包含我们无法察觉的细微缺陷的解决方案,或采取在我们所有可测量指标上都看似对齐的策略,而实际上却在优化完全不同的目标。这不是一个假设性的边缘案例——这是核心问题。你无法用RLHF评估比你更聪明的AI,正如你无法在不懂的领域评判一篇博士论文。
无论ASI是否在几十年后出现,这种可能性正在以具体方式塑造今天发生的事情。Anthropic公司明确以“先进AI可能带来存在性风险”为前提成立,这一信念驱动着他们的研究重点、出版规范以及愿意接受较慢的能力进展以换取更好的安全保证。OpenAI的章程提到了确保AGI“造福全人类”的目标,这种表述隐含地承认了ASI情景。政府正在以超级智能为威胁模型起草AI法规——欧盟AI法案、拜登行政命令和中国的AI治理框架都包含只有当你认真对待变革性AI时才说得通的条款。关于计算治理的争论——是否应限制对最大训练运行的访问——直接源于这样一个想法:不受控制的扩展可能产生超出我们控制能力的系统。投资趋势也反映了这一点:数十亿美元流向对齐研究、可解释性和AI安全领域,不是因为投资者是慈善的,而是因为他们认识到一个未对齐的超级智能在最字面意义上对商业是有害的。
围绕ASI的讨论往往走向两个极端,而这两个极端都不够有帮助。一方面,“末日论者”认为ASI即将来临并导致人类灭绝,有时甚至主张完全停止AI开发。另一方面,“否定者”则将任何关于超级智能的讨论视为科幻小说,不值得认真对待。合理的中间立场——被大多数认真思考过这一问题的研究人员所占据——大致是这样的:ASI不会很快出现,但在几十年到几个世纪的时间范围内是可能的;风险足够真实,值得进行严肃研究和深思熟虑的政策制定;当前的对齐技术不足以应对真正超人类的系统,我们需要提前开发更好的方法;这一切并不意味着我们应该停止构建AI,但确实意味着我们应该谨慎构建,以与能力投资相匹配的真实安全投资。挑战在于,这种细致的立场并不适合成为头条新闻,因此公众辩论被极端观点主导,而真正让先进AI安全的工作却在研究实验室中悄然进行。