Zubnet AI學習Wiki › Stable Diffusion
模型

Stable Diffusion

別名:SD、SDXL、SD3
最廣泛使用的開源影像生成模型,由 Stability AI 與學術研究人員合作建立。Stable Diffusion 使用潛在擴散從文字提示生成影像——在壓縮的潛在空間而非像素空間中執行去噪過程,使其能在消費級 GPU 上快速運行。SD 1.5、SDXL 和 SD3 代表了連續的世代。

為什麼重要

Stable Diffusion 使 AI 影像生成民主化。在 SD 之前,影像生成需要昂貴的 API 存取(DALL-E)或僅限於研究。SD 的開放權重意味著任何人都可以在本地運行、微調並基於它建構。這催生了一個龐大的生態系統:LoRA 微調、ControlNet、自訂模型、社群訓練的檢查點,以及從 Automatic1111 到 ComfyUI 的應用程式。

深度解析

架構有三個組件:文字編碼器(CLIP 或 T5)將提示轉換為嵌入,U-Net(SD 1.5/SDXL)或 DiT(SD3)在潛在空間中執行迭代去噪,VAE 解碼器將最終的潛在表示轉換為全解析度影像。「潛在」部分是關鍵:不是去噪一張 512×512 的影像(786K 個值),而是去噪一個 64×64 的潛在表示(4K 個值),使生成速度快 50 倍。

生態系統

SD 的開放性質創造了前所未有的生態系統。Civitai 和 Hugging Face 託管數千個社群訓練的模型和 LoRA 微調(動漫風格、寫實主義、特定角色)。WebUI 前端(Automatic1111、ComfyUI)提供複雜生成工作流程的介面。ControlNet、IP-Adapter 和其他擴展在文字提示之外增加了控制。沒有其他 AI 模型產生過如此高程度的社群創新。

SD3 與架構轉變

SD3 將 U-Net 替換為 DiT(Diffusion Transformer),並從擴散切換到流匹配,跟隨該領域更廣泛的架構趨勢。它還使用三個文字編碼器(CLIP-L、CLIP-G、T5-XXL)以獲得更好的提示理解。結果:更好的文字渲染、更連貫的構圖和改進的提示遵循。但更大的模型大小(2B+ 參數)使其更難在消費級硬體上運行,與 SD 的可及性使命產生矛盾。

相關概念

← 所有術語
ESC
Start typing to search...