Sakana AI y la Universidad de Tokio lanzaron DiffusionBlocks (arXiv 2506.14202, ICLR 2026) — un framework de entrenamiento que particiona un transformer en B bloques y entrena cada uno independientemente en lugar de vía backpropagation end-to-end. El gancho teórico es el framing: las actualizaciones residuales se interpretan como pasos de discretización de Euler de una ODE de difusión inversa, así cada bloque puede llevar un objetivo de score-matching para su rango de noise-level asignado y entrenarse sin comunicar con otros bloques. Los números reportados incluyen reducción aproximada de memoria B× durante entrenamiento, overhead modesto de noise conditioning (0.0543s vs 0.0507s por step), y una reducción de 10× del compute de entrenamiento en el modelo recurrente Huginn.

El entrenamiento block-wise ha sido intentado antes — Forward-Forward, pretraining layer-wise, target propagation — y ha perdido históricamente contra la backprop end-to-end debido al compounding de error a través de la red y objetivos ad-hoc por capa. La contribución de DiffusionBlocks es el framing de difusión como objetivo per-block principled: cada bloque hace score matching en su propio nivel de noise, lo cual es un objetivo supervisado bien definido en lugar de una heurística. En CIFAR-100, el paper reporta 59.30% de accuracy versus 7.85% para Forward-Forward — misma arquitectura, convergencia dramáticamente diferente debido al objetivo. Los benchmarks cubren visión (ViT en CIFAR-100, DiT-S/2 y DiT-L/2 en ImageNet 256×256), lenguaje (Transformers autoregresivos en LM1B y OpenWebText, difusión enmascarada), y recurrente (Huginn). Para modelos de difusión específicamente, hay un bono de inferencia — solo un bloque corre por step de denoising, dando un speedup de inferencia B× que pipeline parallelism no puede matchear.

La lectura de ecosistema para constructores es la palanca de memoria. El entrenamiento estándar de transformer con Adam cuesta ~4× memoria de parámetro por capa (parámetros + gradients + 2 estados de optimizer), y la memoria de activaciones a través de capas compone la cuenta. Una reducción B× de memoria significa que puedes entrenar un modelo en un GPU que antes no podía sostenerlo, o entrenar un modelo más grande en el mismo hardware. El overhead de compute es real pero modesto. La advertencia honesta: los benchmarks empíricos son small-model (CIFAR, ImageNet, LM1B, Huginn) — si el framing de difusión se mantiene para pretraining de LLM 70B+ es la pregunta abierta que determinará si esto se vuelve un default o se queda en investigación. El código está en GitHub. La comparación de Forward-Forward también es indirecta — ese algoritmo nunca fue el baseline más fuerte para métodos layer-wise, y la comparación con checkpointing gradient-only en el mismo presupuesto es la más útil.

Si entrenas modelos en hardware constrained en memoria el lunes por la mañana: DiffusionBlocks vale un try en tu modelo más pequeño objetivo para ver si la matemática de memoria funciona para tu caso. Si corres un pipeline de entrenamiento de LM frontera: vigila si laboratorios independientes reproducen la reducción 10× de compute de Huginn en una escala de LLM significativa antes de tratar esto como un default. La metodología es lo suficientemente principled como para merecer atención; si escala es la pregunta empírica abierta.