UC San Diego和Together AI的研究人员解决了循环语言模型的长期问题——这种架构通过多次运行相同的transformer块来提升计算而不增加参数。他们的新模型Parcae比以前的循环方法验证困惑度降低了6.3%,仅用770M参数就匹配了1.3B参数的transformer。突破在于将循环架构视为动态系统,并应用控制理论来防止"残差状态爆炸",这种现象使早期的循环模型几乎无法训练。
这很重要,因为行业默认的扩展方法——更多参数、更多数据、更多计算——在边缘设备部署模型或管理推理成本时很快就会碰壁。循环架构提供了不同的权衡:相同的内存占用,每次前向传播更多计算。但之前的尝试如Recurrent Depth Models遭受训练不稳定和损失峰值的困扰,需要极其小心的超参数调整。Parcae的中间循环设计配合谱范数约束使这些模型真正可以大规模训练。
该研究建立了循环模型的首个扩展定律,表明计算最优训练需要同时增加循环次数和数据——而不是只是提高循环次数。团队在多个规模上测试了他们的方法,始终优于具有相同参数预算的固定深度transformers。虽然论文专注于语言建模困惑度,真正的考验将是下游任务性能以及这些效率增益是否在生产部署中保持。
对于构建内存受限应用的开发者,这开辟了"越大越好"扩展范式的真正替代方案。无需在模型质量和部署约束之间选择,Parcae表明你可以两者兼得——如果你愿意用内存效率换取推理期间的增加计算。
