La innovación clave de DALL-E 3: en lugar de alimentar los prompts del usuario directamente al modelo de imagen, usa GPT-4 para expandir prompts vagos en descripciones de imagen detalladas. "Un gato" se convierte en "Un gato tabby naranja esponjoso sentado en un alféizar, luz de sol de la tarde entrando, estilo fotorrealista, tonos cálidos." Esta reescritura de prompts mejora dramáticamente la calidad de salida porque los modelos de diffusion responden mejor a descripciones detalladas que a prompts cortos.
DALL-E tiene los filtros de seguridad más agresivos de la industria: rechaza generar imágenes de figuras públicas reales, contenido violento y contenido sexual. También usa metadatos C2PA (Content Credentials) para marcar imágenes como generadas por IA. Estas decisiones de seguridad limitan la flexibilidad de DALL-E en comparación con alternativas abiertas (Stable Diffusion, Flux) pero reflejan el enfoque de OpenAI hacia el despliegue responsable. La tensión entre seguridad y libertad creativa es una tensión definitoria en la generación de imágenes.
DALL-E 3 está disponible a través de la API de OpenAI y a través de ChatGPT. La API proporciona más control (tamaño de imagen, configuración de calidad, parámetro de estilo) pero la integración con ChatGPT es más popular porque maneja la ingeniería de prompts automáticamente. El modelo de integración — LLM + generador de imágenes como experiencia unificada en lugar de herramientas separadas — influyó a los competidores y se está convirtiendo en el estándar para generación de imágenes de consumo.