DALL-E : Définition et signification — Wiki IA

La famille de modèles de génération d'images d'OpenAI. DALL-E 1 (2021) utilisait une approche VAE discrète + Transformer. DALL-E 2 (2022) utilisait CLIP + diffusion. DALL-E 3 (2023) est intégré à ChatGPT et met l'accent sur le suivi des prompts — il utilise un LLM pour réécrire les prompts utilisateur en descriptions d'images détaillées avant la génération, améliorant significativement la correspondance entre ce que tu demandes et ce que tu obtiens.

Pourquoi c'est important

DALL-E est le modèle qui a fait prendre conscience au public de la génération d'images par IA. Le lancement de DALL-E 2 en 2022 est devenu viral et a suscité à la fois l'enthousiasme et l'inquiétude à propos de l'imagerie générée par IA. L'intégration de DALL-E 3 avec ChatGPT a rendu la génération d'images accessible à des centaines de millions d'utilisateurs. Son innovation de réécriture de prompts a influencé la façon dont les autres modèles gèrent la conversion texte-image.

En profondeur

L'innovation clé de DALL-E 3 : au lieu d'envoyer les prompts utilisateur directement au modèle d'image, il utilise GPT-4 pour développer les prompts vagues en descriptions d'images détaillées. « Un chat » devient « Un chat tigré orange duveteux assis sur un rebord de fenêtre, lumière d'après-midi entrant à flots, style photoréaliste, tons chauds. » Cette réécriture de prompt améliore dramatiquement la qualité de sortie parce que les modèles de diffusion répondent mieux aux descriptions détaillées qu'aux prompts courts.

Mesures de sécurité

DALL-E a les filtres de sécurité les plus agressifs de l'industrie : il refuse de générer des images de vraies personnalités publiques, du contenu violent et du contenu sexuel. Il utilise aussi les métadonnées C2PA (Content Credentials) pour marquer les images comme générées par IA. Ces choix de sécurité limitent la flexibilité de DALL-E par rapport aux alternatives ouvertes (Stable Diffusion, Flux) mais reflètent l'approche d'OpenAI pour un déploiement responsable. Le compromis entre sécurité et liberté créative est une tension définissante dans la génération d'images.

API et intégration

DALL-E 3 est disponible via l'API d'OpenAI et via ChatGPT. L'API fournit plus de contrôle (taille d'image, paramètres de qualité, paramètre de style) mais l'intégration ChatGPT est plus populaire parce qu'elle gère l'ingénierie de prompts automatiquement. Le modèle d'intégration — LLM + générateur d'images comme une expérience unifiée plutôt que des outils séparés — a influencé les concurrents et devient le standard pour la génération d'images grand public.

DALL-E

Pourquoi c'est important

En profondeur

Mesures de sécurité

API et intégration

In The News