Zubnet AI學習Wiki › 擴散模型
模型

擴散模型

一種生成模型,透過從純噪音開始,逐步去除噪音,直到產生連貫的輸出(如圖片、影片或音訊)。該模型學習反轉將噪音添加到真實數據的過程。Stable Diffusion、DALL-E 3 和 Midjourney 都採用此方法的變體。

為什麼重要

擴散模型在2022年左右取代了GANs,成為主導的圖像生成技術。它們能生成更多樣且可控的輸出,並成為今日幾乎所有圖像和視頻AI工具的主軸。

深度解析

核心概念看似簡單。取一張真實圖片,逐步加入高斯噪聲,直到它變成純粹的靜態,然後訓練一個神經網絡來逆向每一步。在生成階段,你從隨機噪聲開始,執行學習到的去噪過程。模型從來不會一次生成圖片 — 它透過數十或數百次的迭代優化步驟,逐步將混亂的噪聲引導到更合理的狀態。這種迭代性既是方法的優勢,也是弱點:它能產生品質驚人的輸出,但每張圖片都需要多次通過網絡的前向傳播,導致生成速度比單次傳播架構慢。

在潛在空間中運作

實際上,現代擴散模型並不會直接在像素空間中運作。潛在擴散(Stable Diffusion 中的「Stable」)會使用預訓練的自動編碼器,將圖片壓縮成更小的潛在表示,然後在那裡執行擴散過程。這正是讓高解析度生成成為可能的原因 — 在像素空間中擴散一張 512x512 的圖片,每一步都需要處理 786,432 個值,而潛在空間可能將其壓縮為 64x64x4,約 16,384 個值。自動編碼器會在最後處理回像素的映射。DALL-E 3、Midjourney、Flux,以及目前幾乎所有競爭性的圖片生成器,都使用某種形式的潛在擴散。

引導輸出

條件控制是引導輸出的方式。文字到圖片模型會使用文字編碼器(通常是 CLIP 或 T5)將你的提示詞編碼,然後在每一步透過交叉注意力機制將這些嵌入向量注入去噪網絡中。分類器無指導(CFG)是讓這一切運作良好的關鍵 — 在訓練期間,模型會偶爾忽略條件信號,同時學習無條件生成。在推論階段,你會計算條件和無條件的預測,然後從無條件的結果中推導出條件結果。更高的 CFG 比例意味著模型會更忠實地遵循你的提示詞,但過度推導會導致圖片過度飽和且產生許多瑕疵。這就是你會在每個擴散 UI 中看到的「指導比例」滑塊。

去噪網絡本身的架構正在快速演進。最初的 U-Net 主幹(一種從醫學影像分割中借來的卷積架構)在 Stable Diffusion 1.x 和 2.x 中佔據主導地位。但這個領域逐漸轉向基於 Transformer 的去噪器 — 差異轉換器(Diffusion Transformers,或 DiT)。Sora、Stable Diffusion 3 和 Flux 都使用了 DiT 的變體。這種轉變是有道理的:Transformer 能處理變長序列,且計算規模擴展更可預測。對於視頻生成,序列只需變成一系列畫格,注意力機制就能直接建模時間上的連貫性。

更快,而非記憶

一個常見的誤解是擴散模型會「儲存」或「檢索」訓練圖片。事實並非如此。模型學習的是統計去噪函數 — 技術上來說,是數據分佈的梯度。當訓練數據高度重複時,記憶化可能發生,但這是一種失敗模式,而非機制本身。另一個實用的陷阱是:去噪步數對品質和速度有巨大影響。DDIM 和 DPM-Solver 等技術將所需的步數從數千次減少到 20-50 次,而蒸餾方法(如 SDXL Turbo、潛在一致性模型)更進一步將其推至 1-4 步,雖然會有些品質上的妥協。這正是目前的前沿 — 讓擴散足夠快,能用於即時和互動應用,同時不犧牲最初讓它佔據主導地位的品質。

相關概念

← 所有術語
← 開發者工具 ElevenLabs →
ESC