Diffusion Transformer：定義與含義 — AI 維基

一種將擴散模型中傳統使用的 U-Net 骨幹替換為 Transformer 的架構。DiT 將注意力機制應用於影像生成，實現了使 LLM 如此強大的相同擴展行為。Sora、Flux、Stable Diffusion 3 以及大多數最先進的影像和影片生成器都使用 DiT 或其變體。

為什麼重要

DiT 將語言和影像生成的世界統一在單一架構範式之下：Transformer。這意味著為 LLM 開發的擴展定律、訓練技術和優化策略在很大程度上可以轉移到影像和影片生成。這就是為什麼影像品質提升如此迅速——該領域正在乘著與語言相同的擴展曲線。

深度解析

最初的 DiT 論文（Peebles & Xie，2023 年）表明，僅僅用標準 Transformer 替換 U-Net 並擴大規模就能產生更好的影像品質。Transformer 處理影像區塊（類似 Vision Transformer），並從擴散時步和類別標籤加入條件。關鍵發現：DiT 遵循清晰的擴展定律——更大的模型和更多計算可預測地產生更好的影像，就像 LLM 一樣。

從 U-Net 到 Transformer

U-Net 在多個解析度下處理影像，進行降採樣再上採樣，並帶有跳躍連接。這種歸納偏差在計算受限時有用，但引入了架構複雜度且擴展不如 Transformer 乾淨。Transformer 以其統一的架構更易於擴展，且能從額外的計算和資料中獲得更多收益。代價是：由於對所有影像區塊的二次注意力，Transformer 更消耗記憶體。

MM-DiT：多模態 DiT

Stable Diffusion 3 和 Flux 使用 MM-DiT（Multi-Modal DiT），透過各自的串流處理文本和影像 token，再透過交叉注意力進行交互。這比原始 DiT 中較簡單的文本條件更有效。文本串流使用凍結的文本編碼器（如 T5 或 CLIP），影像串流使用擴散過程。兩個串流在每個 Transformer 區塊中交換資訊。

Diffusion Transformer

為什麼重要

深度解析

從 U-Net 到 Transformer

MM-DiT：多模態 DiT

相關概念