AGI：定义与含义 — AI 维基

一种假想的人工智能系统，能够理解、学习并执行人类可以完成的任何智力任务——具备在无需针对每个领域进行专门训练的情况下跨领域迁移知识的能力。与当前擅长狭窄任务（生成文本、分类图像）的人工智能不同，通用人工智能（AGI）将能够处理新颖情境、进行抽象推理，并适应任何挑战。AGI是否即将到来、需要数十年时间，或是根本不可能实现，是该领域最具争议的辩论。

为什么重要

AGI是整个AI行业的北极星（或梦魇）。它推动数十亿美元的投资，影响安全研究的重点，并主导政策辩论。无论你是否认为AGI已经临近，这一概念决定了Anthropic、OpenAI和DeepMind等公司如何界定其使命—而理解这场辩论能帮助你区分真正的进展与炒作。

深度解析

AGI的第一个问题是没有人能就其定义达成一致。OpenAI于2024年发布了一个五级框架：一级是聊天机器人（对话式AI），二级是推理者（人类水平的问题解决能力），三级是代理（能采取行动的系统），四级是创新者（能辅助发明的系统），五级是组织（能完成整个公司工作的AI）。根据他们自己的定义，他们声称通过o1已接近二级。Keras和ARC基准的创建者弗朗索瓦·乔莱特则持根本不同的观点——他认为AGI意味着高效的技能获取能力，即能够通过极少的例子掌握真正新的任务，而不仅仅是对训练数据相似任务表现出色。谷歌DeepMind提出了另一个框架，将通用性与性能区分开来，创建了一个矩阵，其中可能存在狭窄的超级智能或普遍的无能。这些并非仅仅是定义上的小分歧。你采用的定义决定了AGI是两年后还是两百年后的事情。

当前状况

我们实际所处的位置完全取决于如何衡量。大型语言模型可以通过律师资格考试，编写可发表的代码，解释量子力学，创作诗歌，解决新颖的逻辑谜题。按照甚至五年前的标准，这已被视为通用智能的有力证据。然而，这些系统有时无法可靠地统计单词中的字母数，空间推理困难，混淆相关性与因果性，并自信地陈述虚假信息。这是距离AGI的90%，剩下的10%只是工程细节吗？还是仅仅完成了10%，而令人印象深刻的部分只是基于大规模模式匹配的魔术？诚实的研究人员对此存在严重分歧。乐观者指出，每一代新模型都会修复许多之前的失败模式。怀疑者则指出，剩余的失败表明存在根本性的架构限制，而不仅仅是扩展问题。

扩展之争

目前AI领域最具影响力的的技术争论是：扩展（更多数据、更多计算能力、更多参数）最终是否能产生AGI，还是我们需要根本性的新架构。扩展假说最明显的支持者是OpenAI的研究人员，他们认为智能主要取决于规模：模型足够大，训练数据足够多，通用能力就会出现。这种观点的证据是真实的——GPT-4在能力上明显优于GPT-3，而GPT-3又明显优于GPT-2，每次飞跃主要来自于扩展。反方观点认为，扩展定律显示收益递减，当前架构存在根本性限制（没有持久记忆、没有世界模型、没有因果推理），而仅仅向有缺陷的架构投入更多计算能力只会产生更大的缺陷系统。真相可能介于两者之间。扩展确实产生了无人预测的真实突破，但在某些问题类别（长期规划、物理推理、可靠算术）中，更多的扩展并未可靠地带来帮助。

经济论点

有一种实用的重新定义AGI的方式，完全绕过了哲学争论：AGI不需要在每个领域都匹配或超越人类智能。它只需要足够好，以自动化大多数知识性工作。一个能以高级工程师水平编写代码、起草法律文件、分析医学图像、管理项目并处理客户支持的系统——即使它无法系鞋带或理解关于自身局限性的笑话——也会像任何假设的“真正”AGI一样深刻地改变全球经济。一些经济学家认为我们已经进入这个时代。问题不是AI是否会具有意识或“真正”智能，而是它是否会使得大多数白领工作可自动化。这种框架使得无论你对哲学问题持何种立场，AGI的时间表都显得更加紧迫和具体。

安全与时间线问题

AGI的时间线对安全研究至关重要，这并非理论上的担忧。对齐——确保先进AI系统做我们真正想要的事情——确实非常困难。当前的技术如RLHF和宪法AI对于当前系统效果尚可，但它们依赖于人类能够评估AI的输出。随着系统能力增强，这一假设将崩溃。如果AGI还有五十年时间，我们有时间开发稳健的对齐技术，建立制度框架，并进行多轮测试。如果AGI只有五年时间，我们将在一个可能不够的时间表上进行对齐研究。这就是为什么时间线估计不仅仅是学术好奇——它们直接决定了我们解决对齐问题的紧迫性、监管AI开发的严厉程度，以及主要实验室在追求能力提升时愿意接受的风险程度。最担心AGI安全的研究人员不一定是认为AGI最可能实现的人，而是认为搞错后果不可逆的人。

AGI