影像生成：定義與含義 — AI 維基

使用 AI 模型從文字描述建立影像。你輸入「水彩風格的山景日落」，模型就會生成匹配的影像。目前的方法包括擴散模型（Stable Diffusion、DALL-E）、流匹配（Flux）和自迴歸模型。這個領域已從 2020 年的模糊人臉進步到 2025 年的逼真、藝術可控的輸出。

為什麼重要

影像生成是繼聊天機器人之後最引人注目的消費者 AI 能力。它正在改變平面設計、廣告、概念藝術和視覺傳達。理解底層方法（擴散、流匹配、DiT）及其權衡有助於你選擇正確的工具，並理解其限制——為什麼某些提示有效而其他的不行，為什麼某些風格比其他風格更容易。

深度解析

主導方法：將文字編碼為嵌入（透過 CLIP 或 T5），從隨機雜訊開始，透過交叉注意力在文字嵌入的條件下迭代去噪。每個去噪步驟使影像略微減少雜訊並更接近提示。經過 20–50 步（或使用流匹配的 4–10 步）後，一個清晰的影像就會出現。模型從數十億個影像-字幕配對中學習了文字描述和影像特徵之間的統計關係。

控制與條件化

除了文字提示之外，現代影像生成支援：圖到圖（修改現有影像）、ControlNet（用邊緣圖、深度圖或姿態引導構圖）、修補（重新生成影像的一部分）和風格轉移（將一張影像的美學應用到另一張）。這些控制使影像生成在專業工作流程中變得實用，因為「隨機生成一些東西」是不夠的——你需要特定的構圖、姿態和佈局。

品質前沿

影像品質的提升來自三個來源：更好的架構（U-Net 到 DiT）、更好的訓練（流匹配優於擴散）和更好的資料（更高解析度、更好的字幕、更多多樣性）。目前的前沿模型產生的逼真影像很難與照片區分，但它們仍然在以下方面掙扎：手和手指、文字渲染、空間關係（「A 在 B 的左邊」）和計數（「恰好五個蘋果」）。這些剩餘的挑戰是活躍的研究領域。

影像生成

為什麼重要

深度解析

控制與條件化

品質前沿

相關概念