Sakana AI pis l'Université de Tokyo ont sorti DiffusionBlocks (arXiv 2506.14202, ICLR 2026) — un cadre d'entraînement qui partitionne un transformer en B blocs pis entraîne chacun indépendamment plutôt que via backpropagation end-to-end. Le hook théorique, c'est le framing : les updates résiduelles sont interprétées comme des étapes de discrétisation Euler d'un ODE de diffusion inverse, donc chaque bloc peut porter un objectif de score-matching pour son range de noise-level assigné pis s'entraîner sans communiquer avec les autres blocs. Les chiffres rapportés incluent une réduction approximative de mémoire B× pendant l'entraînement, un overhead modeste de noise conditioning (0,0543s vs 0,0507s par step), pis une réduction de 10× du compute d'entraînement sur le modèle récurrent Huginn.
L'entraînement block-wise a été tenté avant — Forward-Forward, pretraining layer-wise, target propagation — pis a historiquement perdu contre la backprop end-to-end à cause du compounding d'erreur à travers le réseau pis d'objectifs ad-hoc pour chaque couche. La contribution de DiffusionBlocks, c'est le framing diffusion comme objectif per-block principled : chaque bloc fait du score matching à son propre niveau de noise, ce qui est une cible supervisée bien définie au lieu d'une heuristique. Sur CIFAR-100, le papier rapporte 59,30% d'accuracy versus 7,85% pour Forward-Forward — même architecture, convergence dramatiquement différente à cause de l'objectif. Les benchmarks couvrent vision (ViT sur CIFAR-100, DiT-S/2 pis DiT-L/2 sur ImageNet 256×256), langage (Transformers autoregressifs sur LM1B pis OpenWebText, diffusion maskée), pis récurrent (Huginn). Pour les modèles de diffusion spécifiquement, y'a un bonus d'inférence — seulement un bloc roule par step de denoising, donnant un speedup d'inférence B× que la pipeline parallelism peut pas matcher.
La lecture écosystème pour les bâtisseurs, c'est le levier mémoire. L'entraînement standard de transformer avec Adam coûte ~4× mémoire de paramètre par couche (paramètres + gradients + 2 états d'optimiseur), pis la mémoire d'activations à travers les couches compose la facture. Une réduction B× de mémoire veut dire que tu peux entraîner un modèle sur un GPU qui pouvait pas le tenir avant, ou entraîner un plus gros modèle sur le même hardware. L'overhead de compute est réel mais modeste. Le caveat honnête : les benchmarks empiriques sont small-model (CIFAR, ImageNet, LM1B, Huginn) — si le framing diffusion tient pour le pretraining de LLM 70B+ est la question ouverte qui va déterminer si ça devient un défaut ou reste en recherche. Le code est sur GitHub. La comparaison Forward-Forward est aussi indirecte — cet algorithme a jamais été le baseline le plus fort pour les méthodes layer-wise, pis la comparaison au checkpointing gradient-only sur le même budget, c'est la plus utile.
Si tu entraînes des modèles sur du hardware contraint en mémoire lundi matin : DiffusionBlocks vaut un try sur ton plus petit modèle cible pour voir si la math mémoire marche pour ton cas. Si tu roules un pipeline d'entraînement de LM frontière : watch si des labs indépendants reproduisent la réduction 10× de compute Huginn sur une échelle de LLM significative avant de traiter ça comme un défaut. La méthodologie est assez principled pour mériter de l'attention ; si ça scale, c'est la question empirique ouverte.
