DALL-E：定义与含义 — AI 维基

OpenAI的图像生成模型系列。DALL-E 1（2021）使用离散VAE + Transformer方法。DALL-E 2（2022）使用CLIP + 扩散。DALL-E 3（2023）集成到ChatGPT中，强调提示遵循——它使用LLM在生成前将用户提示重写为详细的图像描述，显著提高了你要求的内容与你得到的结果之间的匹配度。

为什么重要

DALL-E是让公众意识到AI图像生成的模型。DALL-E 2在2022年的发布引发了病毒式传播，激发了对AI生成图像的兴奋和担忧。DALL-E 3与ChatGPT的集成使数亿用户能够使用图像生成。它的提示重写创新影响了其他模型处理文本到图像转换的方式。

深度解析

DALL-E 3的关键创新：不是将用户提示直接输入图像模型，而是使用GPT-4将模糊的提示扩展为详细的图像描述。“一只猫”变成“一只毛茸茸的橙色虎斑猫坐在窗台上，午后阳光洒入，照片写实风格，暖色调。”这种提示重写显著提高了输出质量，因为扩散模型对详细描述的响应优于简短提示。

安全措施

DALL-E拥有业内最激进的安全过滤器：它拒绝生成真实公众人物、暴力内容和性内容的图像。它还使用C2PA元数据（内容凭证）将图像标记为AI生成。这些安全选择限制了DALL-E相比开放替代方案（Stable Diffusion、Flux）的灵活性，但反映了OpenAI对负责任部署的态度。安全与创作自由之间的权衡是图像生成中的核心张力。

API和集成

DALL-E 3可通过OpenAI的API和ChatGPT使用。API提供更多控制（图像尺寸、质量设置、风格参数），但ChatGPT集成更受欢迎，因为它自动处理提示工程。这种集成模式——LLM + 图像生成器作为统一体验而非独立工具——影响了竞争对手，正在成为消费级图像生成的标准。

DALL-E

为什么重要

深度解析

安全措施

API和集成

In The News