一个拥有700万参数的Tiny Recursion Model (TRM)正在超越比它大数千倍的主流推理模型,包括GPT-4和Claude,其关键在于从根本上改变了AI处理问题的方式。TRM摒弃了传统的前馈架构(单次处理输入),而是使用小型MLP模块迭代优化推理过程,本质上是用计算空间换取思考时间。该模型在ARC-AGI基准测试等新问题上取得了突破,在这些测试中,训练数据的记忆化毫无用处。

这挑战了行业十年来对规模化的痴迷——即智能只能通过更大的模型、更多参数和数据中心级别的训练来实现的信念。像GPT-4这样的当前推理模型之所以失败,是因为它们本质上是token预测引擎,必须坚持其初始推理路径,经常将早期错误滚雪球般放大成自信的幻觉。它们擅长适应已知解决方案,但在真正的新颖推理方面表现糟糕,暴露了它们依赖模式匹配而非逻辑推理的本质。

这一时机与整个行业更广泛的效率推进相吻合。Alibaba的QwQ-32B最近证明,一个320亿参数的模型可以匹敌顶级竞争对手,同时比DeepSeek的R1减少98%的内存需求。中国研究人员展示了强化学习如何使中等规模模型能够与大规模mixture-of-experts架构竞争。与此同时,像DeepSpeed这样的公司正在构建完整的压缩库,使大型模型更易于部署。

对开发者而言,这表明当前的模型选择策略可能是错误的。与其默认选择最大可用模型,获胜策略可能是具有迭代推理能力的较小模型——特别是对于需要真正问题解决而非模式识别的应用。这可能大幅降低推理成本,同时提高逻辑一致性。