DALL-E 3的关键创新:不是将用户提示直接输入图像模型,而是使用GPT-4将模糊的提示扩展为详细的图像描述。“一只猫”变成“一只毛茸茸的橙色虎斑猫坐在窗台上,午后阳光洒入,照片写实风格,暖色调。”这种提示重写显著提高了输出质量,因为扩散模型对详细描述的响应优于简短提示。
DALL-E拥有业内最激进的安全过滤器:它拒绝生成真实公众人物、暴力内容和性内容的图像。它还使用C2PA元数据(内容凭证)将图像标记为AI生成。这些安全选择限制了DALL-E相比开放替代方案(Stable Diffusion、Flux)的灵活性,但反映了OpenAI对负责任部署的态度。安全与创作自由之间的权衡是图像生成中的核心张力。
DALL-E 3可通过OpenAI的API和ChatGPT使用。API提供更多控制(图像尺寸、质量设置、风格参数),但ChatGPT集成更受欢迎,因为它自动处理提示工程。这种集成模式——LLM + 图像生成器作为统一体验而非独立工具——影响了竞争对手,正在成为消费级图像生成的标准。