François Chollet的ARC Prize基金会刚刚发布了ARC-AGI-3,简直残酷。这个人类100%能解决的交互式推理基准测试新版本,让所有前沿AI模型的成绩都跌破了1%。Google的Gemini Pro在这个屈辱榜单上以0.37%领先,其次是GPT 5.4 High的0.26%,Claude Opus的0.25%,而Grok直接得了零分。这些都是游戏式场景,零指令,模型必须完全从零开始发现规则、形成目标并执行策略。
这次重置很重要,因为它在关键时刻戳破了AGI炒作泡沫。各实验室烧了数百万专门针对ARC-AGI-2进行训练,在不到一年时间里将分数从3%推到了大约50% —— 结果被V3打回几乎零分。Chollet有意这样设计,就是要把真正的推理能力与昂贵的模式匹配和暴力优化区分开来。支持这项挑战的100万美元奖金让前沿实验室比对早期版本更加关注。
最能说明问题的是这个模式。每次ARC发布都触发相同的循环:模型被打脸,实验室投入资源解决问题,分数快速攀升,然后新版本把一切重置。V3的最终分数改善是否代表真正的推理突破,还是只是更复杂的记忆,这正是Chollet构建这个测试要揭露的。对于押注模型推理能力的开发者来说,ARC-AGI-3是你产品路线图需要的现实检验。
