ARC-AGI-3让前沿模型成绩跌破1%，给AGI宣言泼了冷水

François Chollet的ARC Prize基金会刚刚发布了ARC-AGI-3，简直残酷。这个人类100%能解决的交互式推理基准测试新版本，让所有前沿AI模型的成绩都跌破了1%。Google的Gemini Pro在这个屈辱榜单上以0.37%领先，其次是GPT 5.4 High的0.26%，Claude Opus的0.25%，而Grok直接得了零分。这些都是游戏式场景，零指令，模型必须完全从零开始发现规则、形成目标并执行策略。

这次重置很重要，因为它在关键时刻戳破了AGI炒作泡沫。各实验室烧了数百万专门针对ARC-AGI-2进行训练，在不到一年时间里将分数从3%推到了大约50% —— 结果被V3打回几乎零分。Chollet有意这样设计，就是要把真正的推理能力与昂贵的模式匹配和暴力优化区分开来。支持这项挑战的100万美元奖金让前沿实验室比对早期版本更加关注。

最能说明问题的是这个模式。每次ARC发布都触发相同的循环：模型被打脸，实验室投入资源解决问题，分数快速攀升，然后新版本把一切重置。V3的最终分数改善是否代表真正的推理突破，还是只是更复杂的记忆，这正是Chollet构建这个测试要揭露的。对于押注模型推理能力的开发者来说，ARC-AGI-3是你产品路线图需要的现实检验。

ARC-AGI-3让前沿模型成绩跌破1%，给AGI宣言泼了冷水

更多新闻