Diffusion Transformer: Definition & Meaning — AI Wiki

Une architecture qui remplace le backbone U-Net traditionnellement utilisé dans les modèles de diffusion par un Transformer. DiT applique le mécanisme d'attention à la génération d'images, permettant le même comportement de scaling qui a rendu les LLM si puissants. Sora, Flux, Stable Diffusion 3 et la plupart des générateurs d'images et vidéos state-of-the-art utilisent DiT ou des variantes.

Pourquoi c'est important

DiT a unifié les mondes de la génération de langage et d'images sous un seul paradigme architectural : le Transformer. Ça veut dire que les lois de scaling, les techniques d'entraînement et les stratégies d'optimisation développées pour les LLM se transfèrent largement à la génération d'images et de vidéos. C'est pourquoi la qualité des images s'est améliorée si rapidement — le domaine surfe sur la même courbe de scaling que le langage.

Deep Dive

The original DiT paper (Peebles & Xie, 2023) showed that simply replacing the U-Net with a standard Transformer and scaling it up produced better image quality. The Transformer processes image patches (similar to Vision Transformers) with added conditioning from the diffusion timestep and class labels. The key finding: DiT follows clear scaling laws — larger models and more compute produce predictably better images, just like with LLMs.

From U-Net to Transformer

U-Nets process images at multiple resolutions, downsampling then upsampling with skip connections. This inductive bias was useful when compute was limited, but it introduces architectural complexity and doesn't scale as cleanly. Transformers, with their uniform architecture, are simpler to scale and benefit more from additional compute and data. The trade-off: Transformers are more memory-hungry due to the quadratic attention over all image patches.

MM-DiT: Multi-Modal DiT

Stable Diffusion 3 and Flux use MM-DiT (Multi-Modal DiT), which processes text and image tokens through separate streams that interact via cross-attention. This is more effective than the simpler text-conditioning used in the original DiT. The text stream uses a frozen text encoder (like T5 or CLIP), and the image stream uses the diffusion process. The two streams exchange information at each Transformer block.

Diffusion Transformer

Pourquoi c'est important

Deep Dive

From U-Net to Transformer

MM-DiT: Multi-Modal DiT

Concepts liés