最初的 DiT 論文(Peebles & Xie,2023 年)表明,僅僅用標準 Transformer 替換 U-Net 並擴大規模就能產生更好的影像品質。Transformer 處理影像區塊(類似 Vision Transformer),並從擴散時步和類別標籤加入條件。關鍵發現:DiT 遵循清晰的擴展定律——更大的模型和更多計算可預測地產生更好的影像,就像 LLM 一樣。
U-Net 在多個解析度下處理影像,進行降採樣再上採樣,並帶有跳躍連接。這種歸納偏差在計算受限時有用,但引入了架構複雜度且擴展不如 Transformer 乾淨。Transformer 以其統一的架構更易於擴展,且能從額外的計算和資料中獲得更多收益。代價是:由於對所有影像區塊的二次注意力,Transformer 更消耗記憶體。
Stable Diffusion 3 和 Flux 使用 MM-DiT(Multi-Modal DiT),透過各自的串流處理文本和影像 token,再透過交叉注意力進行交互。這比原始 DiT 中較簡單的文本條件更有效。文本串流使用凍結的文本編碼器(如 T5 或 CLIP),影像串流使用擴散過程。兩個串流在每個 Transformer 區塊中交換資訊。