GAN: Definição e significado — Wiki de IA

Uma arquitetura de modelo onde duas redes neurais competem: um gerador cria dados falsos e um discriminador tenta distinguir o real do falso. Através desse jogo adversarial, o gerador melhora na criação de saídas realistas. Dominou a geração de imagens de 2014 a ~2022.

Por que isso importa

GANs foram pioneiras na geração realista de imagens por IA e ainda são usadas em algumas aplicações em tempo real. Mas modelos de difusão as substituíram em grande parte para trabalhos onde qualidade é prioridade, porque GANs são mais difíceis de treinar e menos diversas nas suas saídas.

Em profundidade

A configuração de uma GAN é um jogo minimax direto da teoria dos jogos. O gerador recebe ruído aleatório (um vetor latente, tipicamente amostrado de uma distribuição Gaussiana) e o mapeia para uma amostra de dados — uma imagem, geralmente. O discriminador recebe tanto amostras reais do conjunto de treinamento quanto amostras falsas do gerador, e produz uma probabilidade de que cada amostra seja real. O gerador é treinado para maximizar o erro do discriminador, enquanto o discriminador é treinado para minimizá-lo. Em teoria, isso converge para um equilíbrio de Nash onde o gerador produz saídas indistinguíveis de dados reais e o discriminador é reduzido a chutar 50/50. Na prática, chegar lá é outra história.

O Problema do Treinamento

A instabilidade no treinamento foi o desafio definidor das GANs por anos. Mode collapse — quando o gerador aprende a produzir apenas uma fatia estreita das saídas possíveis — assombrou as arquiteturas iniciais. Se o discriminador fica forte demais rápido demais, o sinal de gradiente para o gerador desaparece e o aprendizado trava. Se o gerador encontra um truque barato que engana o discriminador, ele o explora sem parar em vez de aprender saídas diversas. Wasserstein GANs (WGAN) abordaram isso com uma função de perda diferente que fornece gradientes mais significativos. Progressive growing (ProGAN) construiu imagens de baixa para alta resolução, estabilizando enormemente o treinamento. StyleGAN e StyleGAN2 da NVIDIA refinaram ainda mais isso, produzindo os famosos rostos "esta pessoa não existe" que primeiro chocaram o público e fizeram as pessoas levarem a geração de imagens por IA a sério.

A Vantagem da Velocidade

O verdadeiro superpoder das GANs sempre foi a velocidade. Como a geração é um único passe forward pela rede geradora, uma GAN treinada pode produzir uma imagem em milissegundos. Compare com modelos de difusão, que precisam de 20 a 50 passos iterativos. É por isso que GANs ainda têm um nicho em aplicações em tempo real: upscaling de texturas em jogos (NVIDIA DLSS usa uma arquitetura parecida com GAN), filtros faciais em tempo real, style transfer em apps mobile e super-resolução. Quando você precisa de imagens a 30+ FPS, o loop de refinamento iterativo da difusão é lento demais sem destilação pesada.

Ian Goodfellow introduziu as GANs em 2014, e a arquitetura passou por uma evolução extraordinária: DCGAN trouxe a estrutura convolucional (2015), GANs condicionais permitiram geração por classe, pix2pix e CycleGAN lidaram com tradução imagem-para-imagem, BigGAN escalou para qualidade ImageNet, e StyleGAN tornou rostos fotorrealistas rotineiros. Por cerca de oito anos, se você via uma imagem gerada por IA, ela quase certamente veio de uma GAN. A mudança para difusão aconteceu porque modelos de difusão resolveram os problemas que as GANs não conseguiam: estabilidade de treinamento, diversidade de saídas e condicionamento fino por texto. Você não precisava mais jogar o delicado jogo de equilíbrio do treinamento adversarial.

Ainda Vivas

Um equívoco que vale corrigir: GANs não morreram. Elas não são mais o padrão para geração de imagens, mas o princípio de treinamento adversarial aparece em todo lugar. Discriminadores baseados em GAN são usados como funções de perda perceptual para super-resolução e compressão. Treinamento adversarial fortalece modelos contra ataques. E algumas das abordagens de difusão mais rápidas (como Adversarial Diffusion Distillation no SDXL Turbo) na verdade usam um discriminador GAN para destilar modelos de difusão lentos em geradores rápidos de poucos passos — um momento legal de ciclo completo onde GANs ajudam a tornar seus sucessores mais rápidos.

GAN

Por que isso importa

Em profundidade

O Problema do Treinamento

A Vantagem da Velocidade

Ainda Vivas

Conceitos relacionados