Stable Diffusion：定义与含义 — AI 维基

最广泛使用的开源图像生成模型，由Stability AI与学术研究人员合作创建。Stable Diffusion使用潜在扩散从文本提示生成图像——在压缩的潜在空间而非像素空间中执行去噪过程，使其快到可以在消费级GPU上运行。SD 1.5、SDXL和SD3代表了连续几代版本。

为什么重要

Stable Diffusion使AI图像生成民主化。在SD之前，图像生成需要昂贵的API访问（DALL-E）或仅限于研究用途。SD的开放权重意味着任何人都可以在本地运行、微调并在其基础上构建。这催生了一个庞大的生态系统：LoRA微调、ControlNet、自定义模型、社区训练的检查点，以及从Automatic1111到ComfyUI的应用程序。

深度解析

该架构有三个组件：文本编码器（CLIP或T5）将提示转换为嵌入，U-Net（SD 1.5/SDXL）或DiT（SD3）在潜在空间中执行迭代去噪，VAE解码器将最终的潜在表示转换为全分辨率图像。“潜在”部分是关键：不是对512×512图像（786K个值）去噪，而是对64×64潜在表示（4K个值）去噪，使生成速度快50倍。

生态系统

SD的开放性质创造了前所未有的生态系统。Civitai和Hugging Face托管了数千个社区训练的模型和LoRA微调（动漫风格、照片写实、特定角色）。WebUI前端（Automatic1111、ComfyUI）提供了复杂生成工作流的界面。ControlNet、IP-Adapter和其他扩展添加了超越文本提示的控制能力。没有其他AI模型产生过如此级别的社区创新。

SD3和架构转变

SD3用DiT（Diffusion Transformer）取代了U-Net，并从扩散切换到流匹配，遵循了该领域更广泛的架构趋势。它还使用三个文本编码器（CLIP-L、CLIP-G、T5-XXL）以更好地理解提示。结果：更好的文字渲染、更连贯的构图和改进的提示遵循。但更大的模型尺寸（2B+参数）使其更难在消费级硬件上运行，与SD的可访问性使命产生了张力。