GAN: Definición y significado — Wiki de IA

Una arquitectura de modelo donde dos redes neuronales compiten: un generador crea datos falsos y un discriminador intenta distinguir lo real de lo falso. A través de este juego adversarial, el generador mejora en la creación de resultados realistas. Dominó la generación de imágenes de 2014 a ~2022.

Por qué importa

Las GANs fueron pioneras en la generación realista de imágenes con IA y todavía se usan en algunas aplicaciones en tiempo real. Pero los modelos de difusión las han reemplazado en gran medida para trabajo donde la calidad es crítica, porque las GANs son más difíciles de entrenar y menos diversas en sus resultados.

En profundidad

La configuración de una GAN es un juego minimax sacado directamente de la teoría de juegos. El generador toma ruido aleatorio (un vector latente, típicamente muestreado de una distribución gaussiana) y lo mapea a una muestra de datos — generalmente una imagen. El discriminador recibe tanto muestras reales del dataset de entrenamiento como muestras falsas del generador, y devuelve una probabilidad de que cada muestra sea real. El generador se entrena para maximizar el error del discriminador, mientras que el discriminador se entrena para minimizarlo. En teoría, esto converge a un equilibrio de Nash donde el generador produce resultados indistinguibles de los datos reales y el discriminador queda reducido a adivinar al 50/50. En la práctica, llegar ahí es otra historia.

El problema del entrenamiento

La inestabilidad del entrenamiento fue el desafío definitorio de las GANs durante años. El mode collapse — donde el generador aprende a producir solo un rango estrecho de resultados posibles — plagaba las arquitecturas tempranas. Si el discriminador se vuelve demasiado fuerte demasiado rápido, la señal de gradiente hacia el generador se desvanece y el aprendizaje se estanca. Si el generador encuentra un truco barato que engaña al discriminador, lo explota sin descanso en lugar de aprender resultados diversos. Las Wasserstein GANs (WGAN) abordaron esto con una función de pérdida diferente que proporciona gradientes más significativos. El crecimiento progresivo (ProGAN) construyó imágenes desde baja resolución hasta alta, estabilizando enormemente el entrenamiento. StyleGAN y StyleGAN2 de NVIDIA refinaron esto aún más, produciendo los famosos rostros de “esta persona no existe” que por primera vez hicieron que el público tomara en serio la generación de imágenes con IA.

La ventaja de velocidad

El verdadero superpoder de las GANs siempre fue la velocidad. Como la generación es un solo forward pass a través de la red generadora, una GAN entrenada puede producir una imagen en milisegundos. Compara esto con los modelos de difusión, que necesitan entre 20 y 50 pasadas iterativas. Por eso las GANs aún tienen un nicho en aplicaciones en tiempo real: escalado de texturas en videojuegos (NVIDIA DLSS usa una arquitectura tipo GAN), filtros faciales en tiempo real, transferencia de estilo en apps móviles y super-resolución. Cuando necesitas imágenes a más de 30 FPS, el bucle de refinamiento iterativo de la difusión es demasiado lento sin una destilación agresiva.

Ian Goodfellow introdujo las GANs en 2014, y la arquitectura pasó por una evolución extraordinaria: DCGAN trajo estructura convolucional (2015), las conditional GANs permitieron generación específica por clase, pix2pix y CycleGAN manejaron traducción imagen-a-imagen, BigGAN escaló hasta calidad ImageNet y StyleGAN hizo rutinarios los rostros fotorrealistas. Durante unos ocho años, si veías una imagen generada por IA, casi con certeza venía de una GAN. El cambio a difusión ocurrió porque los modelos de difusión resolvieron los problemas que las GANs no podían: estabilidad de entrenamiento, diversidad de resultados y condicionamiento fino por texto. No necesitabas jugar el delicado acto de equilibrio del entrenamiento adversarial.

Todavía vivas

Una confusión que vale la pena corregir: las GANs no están muertas. Ya no son la opción por defecto para generación de imágenes, pero el principio de entrenamiento adversarial aparece por todas partes. Los discriminadores basados en GANs se usan como funciones de pérdida perceptual para super-resolución y compresión. El entrenamiento adversarial fortalece los modelos contra ataques. Y algunos de los enfoques más rápidos de difusión (como Adversarial Diffusion Distillation en SDXL Turbo) en realidad usan un discriminador GAN para destilar modelos de difusión lentos en generadores rápidos de pocos pasos — un momento circular bastante interesante donde las GANs ayudan a hacer más rápidos a sus sucesores.

GAN

Por qué importa

En profundidad

El problema del entrenamiento

La ventaja de velocidad

Todavía vivas

Conceptos relacionados