Image-to-Image：定義與含義 — AI 維基

根據現有圖像加上文字提示生成新圖像。與從純噪音開始的文字轉圖像不同，擴散過程從輸入圖像的噪音版本開始，在根據提示修改圖像的同時保留其結構。「這張照片的賽博龐克版本」會保留構圖，但轉換風格和細節。

為什麼重要

Image-to-image 是攝影與 AI 藝術之間的橋樑。它讓你可以使用草圖、照片或現有作品作為起點，在 AI 轉換風格、添加細節或重新想像內容的同時保持版面和構圖。它比文字轉圖像更容易控制，因為你是用視覺結構來引導輸出，而不只是文字。

其機制：取得輸入圖像，通過 VAE 編碼器編碼至潛在空間，根據「去噪強度」參數添加噪音（0.0 = 不變，1.0 = 純噪音 = 文字轉圖像），然後在文字提示的條件下進行去噪。在強度 0.3 時，輸出與輸入非常相似，只有細微修改。在強度 0.8 時，圖像基本被重新想像，但保留基本構圖。

去噪強度是關鍵參數：它控制輸出可以偏離輸入多少。低強度（0.2–0.4）：輕微的風格變化、色彩調整、細微的細節添加。中強度（0.5–0.7）：顯著的風格轉換，同時保留構圖。高強度（0.8–1.0）：大幅重新想像，與輸入僅有模糊的結構相似性。找到適合你用途的正確強度需要反覆實驗。

一個強大的 img2img 工作流程：畫一個粗略的草圖（甚至用小畫家就行），以中高去噪強度將其作為輸入圖像，然後描述期望的輸出。草圖提供空間佈局（物體在哪裡、它們的相對大小），而 AI 填充所有的藝術細節。這讓任何會畫火柴人的人都能使用 AI 圖像生成——構圖來自你，渲染來自 AI。