DALL-E：定義與含義 — AI 維基

OpenAI 的影像生成模型系列。DALL-E 1（2021）使用離散 VAE + Transformer 方法。DALL-E 2（2022）使用 CLIP + 擴散。DALL-E 3（2023）整合到 ChatGPT 中，強調提示遵循——它使用 LLM 將使用者提示改寫為詳細的影像描述後再生成，顯著改善了你所要求的與你所得到的之間的匹配度。

為什麼重要

DALL-E 是讓大眾認識 AI 影像生成的模型。DALL-E 2 在 2022 年的發布引起轟動，激發了對 AI 生成影像的興奮和擔憂。DALL-E 3 與 ChatGPT 的整合使影像生成對數億使用者變得觸手可及。其提示改寫的創新影響了其他模型處理文字轉影像的方式。

深度解析

DALL-E 3 的關鍵創新：不是將使用者提示直接送入影像模型，而是使用 GPT-4 將模糊的提示擴展為詳細的影像描述。「一隻貓」變成「一隻蓬鬆的橘色虎斑貓坐在窗台上，午後陽光灑入，寫實風格，暖色調。」這種提示改寫大幅提升了輸出品質，因為擴散模型對詳細描述的反應比短提示更好。

安全措施

DALL-E 擁有業界最積極的安全過濾器：它拒絕生成真實公眾人物、暴力內容和色情內容的影像。它還使用 C2PA 元資料（內容憑證）將影像標記為 AI 生成。這些安全選擇限制了 DALL-E 相比開放替代方案（Stable Diffusion、Flux）的靈活性，但反映了 OpenAI 對負責任部署的態度。安全與創作自由之間的取捨是影像生成領域的核心矛盾。

API 與整合

DALL-E 3 可透過 OpenAI 的 API 和 ChatGPT 取得。API 提供更多控制（影像大小、品質設定、風格參數），但 ChatGPT 整合更受歡迎，因為它自動處理提示工程。這種整合模式——LLM + 影像生成器作為統一體驗而非獨立工具——影響了競爭對手，並正在成為消費級影像生成的標準。

DALL-E

為什麼重要

深度解析

安全措施

API 與整合

相關概念

In The News