架構有三個組件:文字編碼器(CLIP 或 T5)將提示轉換為嵌入,U-Net(SD 1.5/SDXL)或 DiT(SD3)在潛在空間中執行迭代去噪,VAE 解碼器將最終的潛在表示轉換為全解析度影像。「潛在」部分是關鍵:不是去噪一張 512×512 的影像(786K 個值),而是去噪一個 64×64 的潛在表示(4K 個值),使生成速度快 50 倍。
SD 的開放性質創造了前所未有的生態系統。Civitai 和 Hugging Face 託管數千個社群訓練的模型和 LoRA 微調(動漫風格、寫實主義、特定角色)。WebUI 前端(Automatic1111、ComfyUI)提供複雜生成工作流程的介面。ControlNet、IP-Adapter 和其他擴展在文字提示之外增加了控制。沒有其他 AI 模型產生過如此高程度的社群創新。
SD3 將 U-Net 替換為 DiT(Diffusion Transformer),並從擴散切換到流匹配,跟隨該領域更廣泛的架構趨勢。它還使用三個文字編碼器(CLIP-L、CLIP-G、T5-XXL)以獲得更好的提示理解。結果:更好的文字渲染、更連貫的構圖和改進的提示遵循。但更大的模型大小(2B+ 參數)使其更難在消費級硬體上運行,與 SD 的可及性使命產生矛盾。