Zubnet AI学习Wiki › Diffusion Transformer
模型

Diffusion Transformer

别名:DiT
一种用Transformer替代扩散模型中传统使用的U-Net骨干网络的架构。DiT将注意力机制应用于图像生成,实现了与LLM一样强大的缩放行为。Sora、Flux、Stable Diffusion 3以及大多数最先进的图像和视频生成器都使用DiT或其变体。

为什么重要

DiT将语言和图像生成的世界统一在单一的架构范式下:Transformer。这意味着为LLM开发的缩放定律、训练技术和优化策略在很大程度上可以迁移到图像和视频生成。这就是图像质量提升如此迅速的原因——该领域正在沿着与语言相同的缩放曲线发展。

深度解析

原始DiT论文(Peebles和Xie,2023年)表明,简单地用标准Transformer替换U-Net并扩大规模就能产生更好的图像质量。Transformer处理图像块(类似于视觉Transformer),并添加来自扩散时间步和类别标签的条件。关键发现:DiT遵循清晰的缩放定律——更大的模型和更多的算力可预测地产生更好的图像,就像LLM一样。

从U-Net到Transformer

U-Net在多个分辨率上处理图像,先下采样再上采样并使用跳跃连接。当算力有限时,这种归纳偏置很有用,但它引入了架构复杂性且扩展不够干净。Transformer以其统一的架构更容易扩展,且从额外的算力和数据中获益更多。权衡是:由于对所有图像块的二次注意力,Transformer更消耗内存。

MM-DiT:多模态DiT

Stable Diffusion 3和Flux使用MM-DiT(多模态DiT),通过交叉注意力在独立的流中处理文本和图像token。这比原始DiT中使用的更简单的文本条件更有效。文本流使用冻结的文本编码器(如T5或CLIP),图像流使用扩散过程。两个流在每个Transformer块中交换信息。

相关概念

← 所有术语
← DeepSeek DPO →