Sakana AI和东京大学发布了DiffusionBlocks(arXiv 2506.14202,ICLR 2026)——一个训练框架,将transformer划分为B个块,独立训练每个块,而不是通过端到端反向传播。理论钩子是framing:残差更新被解释为反向扩散ODE的Euler离散化步骤,因此每个块可以为其分配的noise-level范围携带score-matching目标,并在不与其他块通信的情况下训练。报告的数字包括训练期间约B×内存减少、modest的noise conditioning开销(每步0.0543s vs 0.0507s)、以及Huginn递归模型上10×训练计算减少。

块状训练之前被尝试过——Forward-Forward、层状预训练、target propagation——并由于跨网络的错误复合和每层的ad-hoc目标而历史性地输给了端到端反向传播。DiffusionBlocks的贡献是作为principled per-block目标的扩散framing:每个块在自己的noise级别上做score matching,这是一个明确定义的监督目标,而不是启发式。在CIFAR-100上,论文报告59.30%准确率vs Forward-Forward的7.85%——相同架构,由于目标的不同而出现戏剧性不同的收敛。基准涵盖视觉(CIFAR-100上的ViT、ImageNet 256×256上的DiT-S/2和DiT-L/2)、语言(LM1B和OpenWebText上的自回归Transformer、掩码扩散)、和递归(Huginn)。特别是对于扩散模型,有一个推理奖励——每个去噪步骤只有一个块运行,提供pipeline parallelism无法匹敌的B×推理speedup。

对构建者的生态系统解读是内存杠杆。Adam的标准transformer训练每层成本约4×参数内存(参数+gradients+2个优化器状态),跨层激活内存累计账单。B×内存减少意味着你可以在以前无法容纳的GPU上训练模型,或在同一硬件上训练更大的模型。计算开销是真实的但modest。诚实的警告:经验基准是小模型(CIFAR、ImageNet、LM1B、Huginn)——扩散framing是否适用于70B+ LLM预训练是决定这是否成为默认或保留在研究中的开放问题。代码在GitHub上。Forward-Forward比较也是间接的——该算法从来不是层状方法的最强baseline,在同一预算上与gradient-only checkpointing的比较更有用。

如果你周一早上在内存受限的硬件上训练模型:DiffusionBlocks值得在你最小的目标模型上尝试,看看内存数学是否适用于你的情况。如果你运行前沿LM训练pipeline:在将其视为默认之前,关注独立实验室是否在有意义的LLM规模上重现Huginn 10×计算减少。方法论足够principled,值得关注;它是否scale是开放的经验问题。