L'innovation clé de DALL-E 3 : au lieu d'envoyer les prompts utilisateur directement au modèle d'image, il utilise GPT-4 pour développer les prompts vagues en descriptions d'images détaillées. « Un chat » devient « Un chat tigré orange duveteux assis sur un rebord de fenêtre, lumière d'après-midi entrant à flots, style photoréaliste, tons chauds. » Cette réécriture de prompt améliore dramatiquement la qualité de sortie parce que les modèles de diffusion répondent mieux aux descriptions détaillées qu'aux prompts courts.
DALL-E a les filtres de sécurité les plus agressifs de l'industrie : il refuse de générer des images de vraies personnalités publiques, du contenu violent et du contenu sexuel. Il utilise aussi les métadonnées C2PA (Content Credentials) pour marquer les images comme générées par IA. Ces choix de sécurité limitent la flexibilité de DALL-E par rapport aux alternatives ouvertes (Stable Diffusion, Flux) mais reflètent l'approche d'OpenAI pour un déploiement responsable. Le compromis entre sécurité et liberté créative est une tension définissante dans la génération d'images.
DALL-E 3 est disponible via l'API d'OpenAI et via ChatGPT. L'API fournit plus de contrôle (taille d'image, paramètres de qualité, paramètre de style) mais l'intégration ChatGPT est plus populaire parce qu'elle gère l'ingénierie de prompts automatiquement. Le modèle d'intégration — LLM + générateur d'images comme une expérience unifiée plutôt que des outils séparés — a influencé les concurrents et devient le standard pour la génération d'images grand public.