原始DiT论文(Peebles和Xie,2023年)表明,简单地用标准Transformer替换U-Net并扩大规模就能产生更好的图像质量。Transformer处理图像块(类似于视觉Transformer),并添加来自扩散时间步和类别标签的条件。关键发现:DiT遵循清晰的缩放定律——更大的模型和更多的算力可预测地产生更好的图像,就像LLM一样。
U-Net在多个分辨率上处理图像,先下采样再上采样并使用跳跃连接。当算力有限时,这种归纳偏置很有用,但它引入了架构复杂性且扩展不够干净。Transformer以其统一的架构更容易扩展,且从额外的算力和数据中获益更多。权衡是:由于对所有图像块的二次注意力,Transformer更消耗内存。
Stable Diffusion 3和Flux使用MM-DiT(多模态DiT),通过交叉注意力在独立的流中处理文本和图像token。这比原始DiT中使用的更简单的文本条件更有效。文本流使用冻结的文本编码器(如T5或CLIP),图像流使用扩散过程。两个流在每个Transformer块中交换信息。