Diffusion Transformer（扩散Transformer）：定义与含义 — AI 维基

一种用Transformer替代扩散模型中传统使用的U-Net骨干网络的架构。DiT将注意力机制应用于图像生成，实现了与LLM一样强大的缩放行为。Sora、Flux、Stable Diffusion 3以及大多数最先进的图像和视频生成器都使用DiT或其变体。

为什么重要

DiT将语言和图像生成的世界统一在单一的架构范式下：Transformer。这意味着为LLM开发的缩放定律、训练技术和优化策略在很大程度上可以迁移到图像和视频生成。这就是图像质量提升如此迅速的原因——该领域正在沿着与语言相同的缩放曲线发展。

深度解析

原始DiT论文（Peebles和Xie，2023年）表明，简单地用标准Transformer替换U-Net并扩大规模就能产生更好的图像质量。Transformer处理图像块（类似于视觉Transformer），并添加来自扩散时间步和类别标签的条件。关键发现：DiT遵循清晰的缩放定律——更大的模型和更多的算力可预测地产生更好的图像，就像LLM一样。

从U-Net到Transformer

U-Net在多个分辨率上处理图像，先下采样再上采样并使用跳跃连接。当算力有限时，这种归纳偏置很有用，但它引入了架构复杂性且扩展不够干净。Transformer以其统一的架构更容易扩展，且从额外的算力和数据中获益更多。权衡是：由于对所有图像块的二次注意力，Transformer更消耗内存。

MM-DiT：多模态DiT

Stable Diffusion 3和Flux使用MM-DiT（多模态DiT），通过交叉注意力在独立的流中处理文本和图像token。这比原始DiT中使用的更简单的文本条件更有效。文本流使用冻结的文本编码器（如T5或CLIP），图像流使用扩散过程。两个流在每个Transformer块中交换信息。

Diffusion Transformer

为什么重要

深度解析

从U-Net到Transformer

MM-DiT：多模态DiT

相关概念