该架构有三个组件:文本编码器(CLIP或T5)将提示转换为嵌入,U-Net(SD 1.5/SDXL)或DiT(SD3)在潜在空间中执行迭代去噪,VAE解码器将最终的潜在表示转换为全分辨率图像。“潜在”部分是关键:不是对512×512图像(786K个值)去噪,而是对64×64潜在表示(4K个值)去噪,使生成速度快50倍。
SD的开放性质创造了前所未有的生态系统。Civitai和Hugging Face托管了数千个社区训练的模型和LoRA微调(动漫风格、照片写实、特定角色)。WebUI前端(Automatic1111、ComfyUI)提供了复杂生成工作流的界面。ControlNet、IP-Adapter和其他扩展添加了超越文本提示的控制能力。没有其他AI模型产生过如此级别的社区创新。
SD3用DiT(Diffusion Transformer)取代了U-Net,并从扩散切换到流匹配,遵循了该领域更广泛的架构趋势。它还使用三个文本编码器(CLIP-L、CLIP-G、T5-XXL)以更好地理解提示。结果:更好的文字渲染、更连贯的构图和改进的提示遵循。但更大的模型尺寸(2B+参数)使其更难在消费级硬件上运行,与SD的可访问性使命产生了张力。