Zubnet AI學習Wiki › 影像生成
基礎

影像生成

文字到影像、AI 藝術
使用 AI 模型從文字描述建立影像。你輸入「水彩風格的山景日落」,模型就會生成匹配的影像。目前的方法包括擴散模型(Stable Diffusion、DALL-E)、流匹配(Flux)和自迴歸模型。這個領域已從 2020 年的模糊人臉進步到 2025 年的逼真、藝術可控的輸出。

為什麼重要

影像生成是繼聊天機器人之後最引人注目的消費者 AI 能力。它正在改變平面設計、廣告、概念藝術和視覺傳達。理解底層方法(擴散、流匹配、DiT)及其權衡有助於你選擇正確的工具,並理解其限制——為什麼某些提示有效而其他的不行,為什麼某些風格比其他風格更容易。

深度解析

主導方法:將文字編碼為嵌入(透過 CLIP 或 T5),從隨機雜訊開始,透過交叉注意力在文字嵌入的條件下迭代去噪。每個去噪步驟使影像略微減少雜訊並更接近提示。經過 20–50 步(或使用流匹配的 4–10 步)後,一個清晰的影像就會出現。模型從數十億個影像-字幕配對中學習了文字描述和影像特徵之間的統計關係。

控制與條件化

除了文字提示之外,現代影像生成支援:圖到圖(修改現有影像)、ControlNet(用邊緣圖、深度圖或姿態引導構圖)、修補(重新生成影像的一部分)和風格轉移(將一張影像的美學應用到另一張)。這些控制使影像生成在專業工作流程中變得實用,因為「隨機生成一些東西」是不夠的——你需要特定的構圖、姿態和佈局。

品質前沿

影像品質的提升來自三個來源:更好的架構(U-Net 到 DiT)、更好的訓練(流匹配優於擴散)和更好的資料(更高解析度、更好的字幕、更多多樣性)。目前的前沿模型產生的逼真影像很難與照片區分,但它們仍然在以下方面掙扎:手和手指、文字渲染、空間關係(「A 在 B 的左邊」)和計數(「恰好五個蘋果」)。這些剩餘的挑戰是活躍的研究領域。

相關概念

← 所有術語
← 強化學習 影片生成 →