UC San Diego和Together AI的研究人員解決了迴圈語言模型的長期問題——這種架構透過多次執行相同的transformer區塊來提升計算而不增加參數。他們的新模型Parcae比先前的迴圈方法驗證困惑度降低了6.3%,僅用770M參數就匹配了1.3B參數的transformer。突破在於將迴圈架構視為動態系統,並應用控制理論來防止「殘差狀態爆炸」,這種現象使早期的迴圈模型幾乎無法訓練。
這很重要,因為業界預設的擴展方法——更多參數、更多資料、更多計算——在邊緣裝置部署模型或管理推理成本時很快就會碰壁。迴圈架構提供了不同的權衡:相同的記憶體佔用,每次前向傳播更多計算。但先前的嘗試如Recurrent Depth Models遭受訓練不穩定和損失峰值的困擾,需要極其小心的超參數調整。Parcae的中間迴圈設計配合譜範數約束使這些模型真正可以大規模訓練。
該研究建立了迴圈模型的首個擴展定律,表明計算最優訓練需要同時增加迴圈次數和資料——而不是只是提高迴圈次數。團隊在多個規模上測試了他們的方法,始終優於具有相同參數預算的固定深度transformers。雖然論文專注於語言建模困惑度,真正的考驗將是下游任務效能以及這些效率增益是否在生產部署中保持。
對於構建記憶體受限應用的開發者,這開闢了「越大越好」擴展範式的真正替代方案。無需在模型品質和部署約束之間選擇,Parcae表明你可以兩者兼得——如果你願意用記憶體效率換取推理期間的增加計算。
