A abordagem dominante: codifique texto em embeddings (via CLIP ou T5), comece com ruído aleatório, e iterativamente faça denoising condicionando nos embeddings de texto através de atenção cruzada. Cada passo de denoising torna a imagem ligeiramente menos ruidosa e mais alinhada com o prompt. Após 20–50 passos (ou 4–10 com flow matching), uma imagem limpa emerge. O modelo aprendeu a relação estatística entre descrições textuais e features de imagem a partir de bilhões de pares imagem-legenda.
Além de prompts de texto, a geração moderna de imagens suporta: image-to-image (modificar uma imagem existente), ControlNet (guiar composição com mapas de bordas, mapas de profundidade ou poses), inpainting (regenerar parte de uma imagem) e transferência de estilo (aplicar a estética de uma imagem a outra). Esses controles tornam a geração de imagens prática para workflows profissionais onde "gerar algo aleatório" não é suficiente — você precisa de composições, poses e layouts específicos.
Melhorias na qualidade de imagem vêm de três fontes: melhores arquiteturas (U-Net para DiT), melhor treinamento (flow matching sobre difusão) e melhores dados (maior resolução, melhores legendas, mais diversidade). Modelos de fronteira atuais produzem imagens fotorrealistas difíceis de distinguir de fotografias, embora ainda enfrentem dificuldades com: mãos e dedos, renderização de texto, relações espaciais ("A está à esquerda de B") e contagem ("exatamente cinco maçãs"). Esses desafios restantes são áreas ativas de pesquisa.