擴散模型：定義與含義 — AI 維基

一種生成模型，透過從純噪音開始，逐步去除噪音，直到產生連貫的輸出（如圖片、影片或音訊）。該模型學習反轉將噪音添加到真實數據的過程。Stable Diffusion、DALL-E 3 和 Midjourney 都採用此方法的變體。

為什麼重要

擴散模型在2022年左右取代了GANs，成為主導的圖像生成技術。它們能生成更多樣且可控的輸出，並成為今日幾乎所有圖像和視頻AI工具的主軸。

深度解析

核心概念看似簡單。取一張真實圖片，逐步加入高斯噪聲，直到它變成純粹的靜態，然後訓練一個神經網絡來逆向每一步。在生成階段，你從隨機噪聲開始，執行學習到的去噪過程。模型從來不會一次生成圖片 — 它透過數十或數百次的迭代優化步驟，逐步將混亂的噪聲引導到更合理的狀態。這種迭代性既是方法的優勢，也是弱點：它能產生品質驚人的輸出，但每張圖片都需要多次通過網絡的前向傳播，導致生成速度比單次傳播架構慢。

在潛在空間中運作

實際上，現代擴散模型並不會直接在像素空間中運作。潛在擴散（Stable Diffusion 中的「Stable」）會使用預訓練的自動編碼器，將圖片壓縮成更小的潛在表示，然後在那裡執行擴散過程。這正是讓高解析度生成成為可能的原因 — 在像素空間中擴散一張 512x512 的圖片，每一步都需要處理 786,432 個值，而潛在空間可能將其壓縮為 64x64x4，約 16,384 個值。自動編碼器會在最後處理回像素的映射。DALL-E 3、Midjourney、Flux，以及目前幾乎所有競爭性的圖片生成器，都使用某種形式的潛在擴散。

引導輸出

條件控制是引導輸出的方式。文字到圖片模型會使用文字編碼器（通常是 CLIP 或 T5）將你的提示詞編碼，然後在每一步透過交叉注意力機制將這些嵌入向量注入去噪網絡中。分類器無指導（CFG）是讓這一切運作良好的關鍵 — 在訓練期間，模型會偶爾忽略條件信號，同時學習無條件生成。在推論階段，你會計算條件和無條件的預測，然後從無條件的結果中推導出條件結果。更高的 CFG 比例意味著模型會更忠實地遵循你的提示詞，但過度推導會導致圖片過度飽和且產生許多瑕疵。這就是你會在每個擴散 UI 中看到的「指導比例」滑塊。

去噪網絡本身的架構正在快速演進。最初的 U-Net 主幹（一種從醫學影像分割中借來的卷積架構）在 Stable Diffusion 1.x 和 2.x 中佔據主導地位。但這個領域逐漸轉向基於 Transformer 的去噪器 — 差異轉換器（Diffusion Transformers，或 DiT）。Sora、Stable Diffusion 3 和 Flux 都使用了 DiT 的變體。這種轉變是有道理的：Transformer 能處理變長序列，且計算規模擴展更可預測。對於視頻生成，序列只需變成一系列畫格，注意力機制就能直接建模時間上的連貫性。

更快，而非記憶

一個常見的誤解是擴散模型會「儲存」或「檢索」訓練圖片。事實並非如此。模型學習的是統計去噪函數 — 技術上來說，是數據分佈的梯度。當訓練數據高度重複時，記憶化可能發生，但這是一種失敗模式，而非機制本身。另一個實用的陷阱是：去噪步數對品質和速度有巨大影響。DDIM 和 DPM-Solver 等技術將所需的步數從數千次減少到 20-50 次，而蒸餾方法（如 SDXL Turbo、潛在一致性模型）更進一步將其推至 1-4 步，雖然會有些品質上的妥協。這正是目前的前沿 — 讓擴散足夠快，能用於即時和互動應用，同時不犧牲最初讓它佔據主導地位的品質。

擴散模型

為什麼重要

深度解析

在潛在空間中運作

引導輸出

更快，而非記憶

相關概念