DALL-E 3 的關鍵創新:不是將使用者提示直接送入影像模型,而是使用 GPT-4 將模糊的提示擴展為詳細的影像描述。「一隻貓」變成「一隻蓬鬆的橘色虎斑貓坐在窗台上,午後陽光灑入,寫實風格,暖色調。」這種提示改寫大幅提升了輸出品質,因為擴散模型對詳細描述的反應比短提示更好。
DALL-E 擁有業界最積極的安全過濾器:它拒絕生成真實公眾人物、暴力內容和色情內容的影像。它還使用 C2PA 元資料(內容憑證)將影像標記為 AI 生成。這些安全選擇限制了 DALL-E 相比開放替代方案(Stable Diffusion、Flux)的靈活性,但反映了 OpenAI 對負責任部署的態度。安全與創作自由之間的取捨是影像生成領域的核心矛盾。
DALL-E 3 可透過 OpenAI 的 API 和 ChatGPT 取得。API 提供更多控制(影像大小、品質設定、風格參數),但 ChatGPT 整合更受歡迎,因為它自動處理提示工程。這種整合模式——LLM + 影像生成器作為統一體驗而非獨立工具——影響了競爭對手,並正在成為消費級影像生成的標準。