Zubnet AIAprenderWiki › Geração de Imagens
Fundamentos

Geração de Imagens

Também conhecido como: Text-to-Image, Arte IA
Criar imagens a partir de descrições textuais usando modelos de IA. Você digita "um pôr do sol sobre montanhas em estilo aquarela" e o modelo gera uma imagem correspondente. Abordagens atuais incluem modelos de difusão (Stable Diffusion, DALL-E), flow matching (Flux) e modelos autoregressivos. O campo progrediu de rostos borrados em 2020 para saídas fotorrealistas e artisticamente controladas em 2025.

Por que isso importa

A geração de imagens é a capacidade de IA para consumidores mais visível depois dos chatbots. Está transformando design gráfico, publicidade, concept art e comunicação visual. Entender as abordagens subjacentes (difusão, flow matching, DiT) e seus trade-offs ajuda você a escolher a ferramenta certa e entender as limitações — por que alguns prompts funcionam e outros não, por que certos estilos são mais fáceis que outros.

Em profundidade

A abordagem dominante: codifique texto em embeddings (via CLIP ou T5), comece com ruído aleatório, e iterativamente faça denoising condicionando nos embeddings de texto através de atenção cruzada. Cada passo de denoising torna a imagem ligeiramente menos ruidosa e mais alinhada com o prompt. Após 20–50 passos (ou 4–10 com flow matching), uma imagem limpa emerge. O modelo aprendeu a relação estatística entre descrições textuais e features de imagem a partir de bilhões de pares imagem-legenda.

Controle e Condicionamento

Além de prompts de texto, a geração moderna de imagens suporta: image-to-image (modificar uma imagem existente), ControlNet (guiar composição com mapas de bordas, mapas de profundidade ou poses), inpainting (regenerar parte de uma imagem) e transferência de estilo (aplicar a estética de uma imagem a outra). Esses controles tornam a geração de imagens prática para workflows profissionais onde "gerar algo aleatório" não é suficiente — você precisa de composições, poses e layouts específicos.

A Fronteira da Qualidade

Melhorias na qualidade de imagem vêm de três fontes: melhores arquiteturas (U-Net para DiT), melhor treinamento (flow matching sobre difusão) e melhores dados (maior resolução, melhores legendas, mais diversidade). Modelos de fronteira atuais produzem imagens fotorrealistas difíceis de distinguir de fotografias, embora ainda enfrentem dificuldades com: mãos e dedos, renderização de texto, relações espaciais ("A está à esquerda de B") e contagem ("exatamente cinco maçãs"). Esses desafios restantes são áreas ativas de pesquisa.

Conceitos relacionados

← Todos os termos
← GAN Geração de Vídeo →