Zubnet AI学习Wiki › Stable Diffusion
模型

Stable Diffusion

别名:SD、SDXL、SD3
最广泛使用的开源图像生成模型,由Stability AI与学术研究人员合作创建。Stable Diffusion使用潜在扩散从文本提示生成图像——在压缩的潜在空间而非像素空间中执行去噪过程,使其快到可以在消费级GPU上运行。SD 1.5、SDXL和SD3代表了连续几代版本。

为什么重要

Stable Diffusion使AI图像生成民主化。在SD之前,图像生成需要昂贵的API访问(DALL-E)或仅限于研究用途。SD的开放权重意味着任何人都可以在本地运行、微调并在其基础上构建。这催生了一个庞大的生态系统:LoRA微调、ControlNet、自定义模型、社区训练的检查点,以及从Automatic1111到ComfyUI的应用程序。

深度解析

该架构有三个组件:文本编码器(CLIP或T5)将提示转换为嵌入,U-Net(SD 1.5/SDXL)或DiT(SD3)在潜在空间中执行迭代去噪,VAE解码器将最终的潜在表示转换为全分辨率图像。“潜在”部分是关键:不是对512×512图像(786K个值)去噪,而是对64×64潜在表示(4K个值)去噪,使生成速度快50倍。

生态系统

SD的开放性质创造了前所未有的生态系统。Civitai和Hugging Face托管了数千个社区训练的模型和LoRA微调(动漫风格、照片写实、特定角色)。WebUI前端(Automatic1111、ComfyUI)提供了复杂生成工作流的界面。ControlNet、IP-Adapter和其他扩展添加了超越文本提示的控制能力。没有其他AI模型产生过如此级别的社区创新。

SD3和架构转变

SD3用DiT(Diffusion Transformer)取代了U-Net,并从扩散切换到流匹配,遵循了该领域更广泛的架构趋势。它还使用三个文本编码器(CLIP-L、CLIP-G、T5-XXL)以更好地理解提示。结果:更好的文字渲染、更连贯的构图和改进的提示遵循。但更大的模型尺寸(2B+参数)使其更难在消费级硬件上运行,与SD的可访问性使命产生了张力。

← 所有术语