Sakana AI e a Universidade de Tóquio lançaram DiffusionBlocks (arXiv 2506.14202, ICLR 2026) — um framework de treinamento que particiona um transformer em B blocos e treina cada um independentemente em vez de via backpropagation end-to-end. O gancho teórico é o framing: atualizações residuais são interpretadas como passos de discretização de Euler de uma ODE de difusão inversa, então cada bloco pode carregar um objetivo de score-matching para sua faixa de noise-level atribuída e treinar sem comunicar com outros blocos. Os números reportados incluem redução aproximada de memória B× durante treinamento, overhead modesto de noise conditioning (0,0543s vs 0,0507s por step), e uma redução de 10× do compute de treinamento no modelo recorrente Huginn.
O treinamento block-wise tem sido tentado antes — Forward-Forward, pretraining layer-wise, target propagation — e tem perdido historicamente contra a backprop end-to-end devido ao compounding de erro através da rede e objetivos ad-hoc por camada. A contribuição do DiffusionBlocks é o framing de difusão como objetivo per-block principled: cada bloco faz score matching em seu próprio nível de noise, o que é um objetivo supervisionado bem definido em vez de uma heurística. No CIFAR-100, o paper reporta 59,30% de accuracy versus 7,85% para Forward-Forward — mesma arquitetura, convergência dramaticamente diferente devido ao objetivo. Os benchmarks cobrem visão (ViT no CIFAR-100, DiT-S/2 e DiT-L/2 no ImageNet 256×256), linguagem (Transformers autoregressivos no LM1B e OpenWebText, difusão mascarada), e recorrente (Huginn). Para modelos de difusão especificamente, há um bônus de inferência — apenas um bloco roda por step de denoising, dando um speedup de inferência B× que pipeline parallelism não pode igualar.
A leitura de ecossistema para construtores é a alavanca de memória. O treinamento padrão de transformer com Adam custa ~4× memória de parâmetro por camada (parâmetros + gradients + 2 estados de optimizer), e a memória de ativações através de camadas compõe a conta. Uma redução B× de memória significa que você pode treinar um modelo em um GPU que antes não podia segurar, ou treinar um modelo maior no mesmo hardware. O overhead de compute é real mas modesto. A ressalva honesta: os benchmarks empíricos são small-model (CIFAR, ImageNet, LM1B, Huginn) — se o framing de difusão se mantém para pretraining de LLM 70B+ é a pergunta aberta que vai determinar se isso se torna um default ou fica em pesquisa. O código está no GitHub. A comparação Forward-Forward também é indireta — esse algoritmo nunca foi o baseline mais forte para métodos layer-wise, e a comparação com checkpointing gradient-only no mesmo orçamento é a mais útil.
Se você treina modelos em hardware constrained em memória segunda de manhã: DiffusionBlocks vale um try no seu menor modelo alvo para ver se a matemática de memória funciona para seu caso. Se você roda um pipeline de treinamento de LM fronteira: monitore se laboratórios independentes reproduzem a redução 10× de compute do Huginn em uma escala de LLM significativa antes de tratar isso como um default. A metodologia é principled o suficiente para merecer atenção; se escala é a pergunta empírica aberta.
