其機制:取得輸入圖像,通過 VAE 編碼器編碼至潛在空間,根據「去噪強度」參數添加噪音(0.0 = 不變,1.0 = 純噪音 = 文字轉圖像),然後在文字提示的條件下進行去噪。在強度 0.3 時,輸出與輸入非常相似,只有細微修改。在強度 0.8 時,圖像基本被重新想像,但保留基本構圖。
去噪強度是關鍵參數:它控制輸出可以偏離輸入多少。低強度(0.2–0.4):輕微的風格變化、色彩調整、細微的細節添加。中強度(0.5–0.7):顯著的風格轉換,同時保留構圖。高強度(0.8–1.0):大幅重新想像,與輸入僅有模糊的結構相似性。找到適合你用途的正確強度需要反覆實驗。
一個強大的 img2img 工作流程:畫一個粗略的草圖(甚至用小畫家就行),以中高去噪強度將其作為輸入圖像,然後描述期望的輸出。草圖提供空間佈局(物體在哪裡、它們的相對大小),而 AI 填充所有的藝術細節。這讓任何會畫火柴人的人都能使用 AI 圖像生成——構圖來自你,渲染來自 AI。