Diffusion Transformer : Définition et signification — Wiki IA

Une architecture qui remplace le backbone U-Net traditionnellement utilisé dans les modèles de diffusion par un Transformer. Le DiT applique le mécanisme d'attention à la génération d'images, permettant le même comportement de mise à l'échelle qui a rendu les LLM si puissants. Sora, Flux, Stable Diffusion 3 et la plupart des générateurs d'images et de vidéos de pointe utilisent DiT ou des variantes.

Pourquoi c'est important

DiT a unifié les mondes de la génération de langage et d'images sous un seul paradigme architectural : le Transformer. Cela signifie que les lois d'échelle, les techniques d'entraînement et les stratégies d'optimisation développées pour les LLM se transfèrent largement à la génération d'images et de vidéos. C'est pourquoi la qualité d'image a progressé si rapidement — le domaine surfe la même courbe de mise à l'échelle que le langage.

En profondeur

L'article original DiT (Peebles & Xie, 2023) a montré que simplement remplacer le U-Net par un Transformer standard et le mettre à l'échelle produisait une meilleure qualité d'image. Le Transformer traite des patches d'image (similaire aux Vision Transformers) avec un conditionnement ajouté par le pas de temps de diffusion et les étiquettes de classe. La découverte clé : DiT suit des lois d'échelle claires — des modèles plus grands et plus de calcul produisent des images prévisiblement meilleures, exactement comme avec les LLM.

Du U-Net au Transformer

Les U-Nets traitent les images à plusieurs résolutions, sous-échantillonnant puis sur-échantillonnant avec des connexions de raccourci. Ce biais inductif était utile quand le calcul était limité, mais il introduit une complexité architecturale et ne passe pas à l'échelle aussi proprement. Les Transformers, avec leur architecture uniforme, sont plus simples à mettre à l'échelle et bénéficient davantage de calcul et de données supplémentaires. Le compromis : les Transformers consomment plus de mémoire à cause de l'attention quadratique sur tous les patches d'image.

MM-DiT : DiT Multi-Modal

Stable Diffusion 3 et Flux utilisent MM-DiT (Multi-Modal DiT), qui traite les tokens de texte et d'image à travers des flux séparés qui interagissent via l'attention croisée. C'est plus efficace que le simple conditionnement textuel utilisé dans le DiT original. Le flux texte utilise un encodeur de texte gelé (comme T5 ou CLIP), et le flux image utilise le processus de diffusion. Les deux flux échangent de l'information à chaque bloc Transformer.

Diffusion Transformer

Pourquoi c'est important

En profondeur

Du U-Net au Transformer

MM-DiT : DiT Multi-Modal

Concepts connexes