Jensen Huang在上周的Lex Fridman播客中宣布我们已经实现了AGI,他的声明时机恰好与ARC-AGI-3的发布同步——这个benchmark立即反驳了他的说法。新测试提供没有指令、规则或目标的交互式环境,要求agent探索和适应。人类解决了100%的这些任务。最好的前沿模型只达到了0.37%。这不是一个小差距——这是一个暴露当前架构根本局限性的鸿沟。
正如我在Huang最初声明后所指出的,这代表了行业围绕AGI的核心定义问题。时机选择使其更加尖锐:为所有主要AI实验室提供compute的公司CEO声称超级智能,而同时,严格的测试显示这些系统无法处理基础新奇性。当前模型在训练分布内的模式匹配方面表现出色,但在面对需要真正推理的真正新颖场景时就会崩溃。
市场似乎更认同数据而非炒作。本周250亿美元的交易针对基础设施和专业应用,而非基础模型。IBM以110亿美元收购Confluent专注于实时数据流——连接模型和现实的管道。Physical Intelligence为机器人控制系统筹集了10亿美元。Eli Lilly以27.5亿美元收购了Insilico的药物发现管道。聪明的资金押注于在已知约束条件下工作的专业系统,而非通用智能。
对开发者来说,这澄清了即时机会:AI在具有清晰模式和定义域的任务中表现出色,但在开放式问题解决中失败。构建利用当前模型擅长领域的系统——分类、训练分布内生成、结构化推理——同时在新颖情况和适应性方面保持人类在循环中。
