Sakana AI和東京大學發布了DiffusionBlocks(arXiv 2506.14202,ICLR 2026)——一個訓練框架,將transformer劃分為B個塊,獨立訓練每個塊,而不是透過端到端反向傳播。理論鉤子是framing:殘差更新被解釋為反向擴散ODE的Euler離散化步驟,因此每個塊可以為其分配的noise-level範圍攜帶score-matching目標,並在不與其他塊溝通的情況下訓練。回報的數字包括訓練期間約B×記憶體減少、modest的noise conditioning開銷(每步0.0543s vs 0.0507s)、以及Huginn遞迴模型上10×訓練計算減少。
塊狀訓練之前被嘗試過——Forward-Forward、層狀預訓練、target propagation——並由於跨網路的錯誤複合和每層的ad-hoc目標而歷史性地輸給了端到端反向傳播。DiffusionBlocks的貢獻是作為principled per-block目標的擴散framing:每個塊在自己的noise級別上做score matching,這是一個明確定義的監督目標,而不是啟發式。在CIFAR-100上,論文回報59.30%準確率vs Forward-Forward的7.85%——相同架構,由於目標的不同而出現戲劇性不同的收斂。基準涵蓋視覺(CIFAR-100上的ViT、ImageNet 256×256上的DiT-S/2和DiT-L/2)、語言(LM1B和OpenWebText上的自迴歸Transformer、掩碼擴散)、和遞迴(Huginn)。特別是對於擴散模型,有一個推理獎勵——每個去噪步驟只有一個塊執行,提供pipeline parallelism無法匹敵的B×推理speedup。
對建構者的生態系統解讀是記憶體槓桿。Adam的標準transformer訓練每層成本約4×參數記憶體(參數+gradients+2個最佳化器狀態),跨層激活記憶體累計帳單。B×記憶體減少意味著你可以在以前無法容納的GPU上訓練模型,或在同一硬體上訓練更大的模型。計算開銷是真實的但modest。誠實的警告:經驗基準是小模型(CIFAR、ImageNet、LM1B、Huginn)——擴散framing是否適用於70B+ LLM預訓練是決定這是否成為預設或保留在研究中的開放問題。程式碼在GitHub上。Forward-Forward比較也是間接的——該演算法從來不是層狀方法的最強baseline,在同一預算上與gradient-only checkpointing的比較更有用。
如果你週一早上在記憶體受限的硬體上訓練模型:DiffusionBlocks值得在你最小的目標模型上嘗試,看看記憶體數學是否適用於你的情況。如果你執行前沿LM訓練pipeline:在將其視為預設之前,關注獨立實驗室是否在有意義的LLM規模上重現Huginn 10×計算減少。方法論足夠principled,值得關注;它是否scale是開放的經驗問題。
