主導方法:將文字編碼為嵌入(透過 CLIP 或 T5),從隨機雜訊開始,透過交叉注意力在文字嵌入的條件下迭代去噪。每個去噪步驟使影像略微減少雜訊並更接近提示。經過 20–50 步(或使用流匹配的 4–10 步)後,一個清晰的影像就會出現。模型從數十億個影像-字幕配對中學習了文字描述和影像特徵之間的統計關係。
除了文字提示之外,現代影像生成支援:圖到圖(修改現有影像)、ControlNet(用邊緣圖、深度圖或姿態引導構圖)、修補(重新生成影像的一部分)和風格轉移(將一張影像的美學應用到另一張)。這些控制使影像生成在專業工作流程中變得實用,因為「隨機生成一些東西」是不夠的——你需要特定的構圖、姿態和佈局。
影像品質的提升來自三個來源:更好的架構(U-Net 到 DiT)、更好的訓練(流匹配優於擴散)和更好的資料(更高解析度、更好的字幕、更多多樣性)。目前的前沿模型產生的逼真影像很難與照片區分,但它們仍然在以下方面掙扎:手和手指、文字渲染、空間關係(「A 在 B 的左邊」)和計數(「恰好五個蘋果」)。這些剩餘的挑戰是活躍的研究領域。