Zubnet AI學習Wiki › Diffusion Transformer
模型

Diffusion Transformer

別名:DiT
一種將擴散模型中傳統使用的 U-Net 骨幹替換為 Transformer 的架構。DiT 將注意力機制應用於影像生成,實現了使 LLM 如此強大的相同擴展行為。Sora、Flux、Stable Diffusion 3 以及大多數最先進的影像和影片生成器都使用 DiT 或其變體。

為什麼重要

DiT 將語言和影像生成的世界統一在單一架構範式之下:Transformer。這意味著為 LLM 開發的擴展定律、訓練技術和優化策略在很大程度上可以轉移到影像和影片生成。這就是為什麼影像品質提升如此迅速——該領域正在乘著與語言相同的擴展曲線。

深度解析

最初的 DiT 論文(Peebles & Xie,2023 年)表明,僅僅用標準 Transformer 替換 U-Net 並擴大規模就能產生更好的影像品質。Transformer 處理影像區塊(類似 Vision Transformer),並從擴散時步和類別標籤加入條件。關鍵發現:DiT 遵循清晰的擴展定律——更大的模型和更多計算可預測地產生更好的影像,就像 LLM 一樣。

從 U-Net 到 Transformer

U-Net 在多個解析度下處理影像,進行降採樣再上採樣,並帶有跳躍連接。這種歸納偏差在計算受限時有用,但引入了架構複雜度且擴展不如 Transformer 乾淨。Transformer 以其統一的架構更易於擴展,且能從額外的計算和資料中獲得更多收益。代價是:由於對所有影像區塊的二次注意力,Transformer 更消耗記憶體。

MM-DiT:多模態 DiT

Stable Diffusion 3 和 Flux 使用 MM-DiT(Multi-Modal DiT),透過各自的串流處理文本和影像 token,再透過交叉注意力進行交互。這比原始 DiT 中較簡單的文本條件更有效。文本串流使用凍結的文本編碼器(如 T5 或 CLIP),影像串流使用擴散過程。兩個串流在每個 Transformer 區塊中交換資訊。

相關概念

← 所有術語
← DeepSeek Distillation(蒸餾) →
ESC