Modelo de difusão: Definição e significado — Wiki de IA

Um tipo de modelo generativo que cria imagens (ou vídeo, áudio) começando com ruído puro e gradualmente removendo-o até que uma saída coerente apareça. O modelo aprende a reverter o processo de adicionar ruído a dados reais. Stable Diffusion, DALL-E 3 e Midjourney usam variantes dessa abordagem.

Por que isso importa

Modelos de difusão destronaram GANs como a técnica dominante de geração de imagens por volta de 2022. Eles produzem saídas mais diversas e controláveis e são a espinha dorsal de quase toda ferramenta de IA de imagem e vídeo hoje.

Em profundidade

A ideia central é enganosamente simples. Pegue uma imagem real, adicione ruído gaussiano a ela passo a passo até que se torne estática pura, depois treine uma rede neural para reverter cada passo. No momento da geração, você começa com ruído aleatório e roda o processo aprendido de remoção de ruído para frente. O modelo nunca gera uma imagem do zero em uma só tacada — ele esculpe uma através de dezenas ou centenas de passos iterativos de refinamento, cada um empurrando a bagunça ruidosa um pouco mais perto de algo coerente. Essa natureza iterativa é tanto a força quanto a fraqueza da abordagem: ela produz saídas de qualidade notavelmente alta, mas cada imagem requer muitas passagens pela rede, tornando a geração lenta comparada a arquiteturas de passagem única.

Trabalhando no Espaço Latente

Na prática, modelos de difusão modernos não trabalham diretamente no espaço de pixels. A difusão latente (o "Stable" em Stable Diffusion) comprime imagens em uma representação latente muito menor usando um autoencoder pré-treinado, depois roda o processo de difusão lá. Isso é o que tornou a geração em alta resolução prática — difundir uma imagem 512x512 no espaço de pixels requer operar em 786.432 valores por passo, enquanto o espaço latente pode comprimir isso para 64x64x4, ou cerca de 16.384 valores. O autoencoder cuida do mapeamento de volta para pixels no final. DALL-E 3, Midjourney, Flux e essencialmente todo gerador de imagens competitivo hoje usa alguma forma de difusão latente.

Direcionando a Saída

O condicionamento é como você direciona a saída. Modelos de texto-para-imagem codificam seu prompt usando um text encoder (CLIP ou T5, tipicamente), depois injetam esses embeddings na rede de remoção de ruído via cross-attention a cada passo. Classifier-free guidance (CFG) é o truque que faz isso funcionar bem — durante o treinamento, o modelo ocasionalmente descarta o sinal de condicionamento para que também aprenda geração incondicional. Na inferência, você computa tanto as predições condicionadas quanto as incondicionadas, depois extrapola para longe da incondicionada. Escalas de CFG mais altas significam que o modelo segue seu prompt mais literalmente, mas empurre demais e você obtém imagens supersaturadas e cheias de artefatos. É aquele slider de "guidance scale" que você vê em toda interface de difusão.

A arquitetura da própria rede de remoção de ruído vem evoluindo rápido. O backbone U-Net original (uma arquitetura convolucional emprestada da segmentação de imagens médicas) dominou através do Stable Diffusion 1.x e 2.x. Mas o campo tem se movido constantemente em direção a denoisers baseados em Transformer — Diffusion Transformers, ou DiTs. Sora, Stable Diffusion 3 e Flux todos usam variantes de DiT. A mudança faz sentido: Transformers lidam com sequências de comprimento variável e escalam mais previsivelmente com compute. Para geração de vídeo, a sequência simplesmente se torna uma série de frames, e attention pode modelar coerência temporal diretamente.

Mais Rápido, Não Memorizado

Um equívoco comum é que modelos de difusão "armazenam" ou "recuperam" imagens de treinamento. Eles não fazem isso. O modelo aprende uma função estatística de remoção de ruído — o gradiente da distribuição de dados, tecnicamente. Memorização pode acontecer com dados de treinamento altamente duplicados, mas é um modo de falha, não o mecanismo. Outro detalhe prático: o número de passos de remoção de ruído tem um impacto enorme na qualidade e velocidade. Técnicas como DDIM e DPM-Solver reduziram os passos necessários de milhares para 20-50, e métodos de destilação (SDXL Turbo, Latent Consistency Models) empurraram isso ainda mais para 1-4 passos, embora com algum trade-off de qualidade. Essa é a fronteira agora — tornar a difusão rápida o suficiente para uso em tempo real e interativo sem sacrificar a qualidade que a tornou dominante.

Modelo de difusão

Por que isso importa

Em profundidade

Trabalhando no Espaço Latente

Direcionando a Saída

Mais Rápido, Não Memorizado

Conceitos relacionados