Stable Diffusion：定義與含義 — AI 維基

最廣泛使用的開源影像生成模型，由 Stability AI 與學術研究人員合作建立。Stable Diffusion 使用潛在擴散從文字提示生成影像——在壓縮的潛在空間而非像素空間中執行去噪過程，使其能在消費級 GPU 上快速運行。SD 1.5、SDXL 和 SD3 代表了連續的世代。

為什麼重要

Stable Diffusion 使 AI 影像生成民主化。在 SD 之前，影像生成需要昂貴的 API 存取（DALL-E）或僅限於研究。SD 的開放權重意味著任何人都可以在本地運行、微調並基於它建構。這催生了一個龐大的生態系統：LoRA 微調、ControlNet、自訂模型、社群訓練的檢查點，以及從 Automatic1111 到 ComfyUI 的應用程式。

深度解析

架構有三個組件：文字編碼器（CLIP 或 T5）將提示轉換為嵌入，U-Net（SD 1.5/SDXL）或 DiT（SD3）在潛在空間中執行迭代去噪，VAE 解碼器將最終的潛在表示轉換為全解析度影像。「潛在」部分是關鍵：不是去噪一張 512×512 的影像（786K 個值），而是去噪一個 64×64 的潛在表示（4K 個值），使生成速度快 50 倍。

生態系統

SD 的開放性質創造了前所未有的生態系統。Civitai 和 Hugging Face 託管數千個社群訓練的模型和 LoRA 微調（動漫風格、寫實主義、特定角色）。WebUI 前端（Automatic1111、ComfyUI）提供複雜生成工作流程的介面。ControlNet、IP-Adapter 和其他擴展在文字提示之外增加了控制。沒有其他 AI 模型產生過如此高程度的社群創新。

SD3 與架構轉變

SD3 將 U-Net 替換為 DiT（Diffusion Transformer），並從擴散切換到流匹配，跟隨該領域更廣泛的架構趨勢。它還使用三個文字編碼器（CLIP-L、CLIP-G、T5-XXL）以獲得更好的提示理解。結果：更好的文字渲染、更連貫的構圖和改進的提示遵循。但更大的模型大小（2B+ 參數）使其更難在消費級硬體上運行，與 SD 的可及性使命產生矛盾。

Stable Diffusion

為什麼重要

深度解析

生態系統

SD3 與架構轉變

相關概念