AlexNet: Definición y significado — Wiki de IA

La red neuronal convolucional que ganó la competencia ImageNet de 2012 por un margen masivo, desencadenando la revolución del deep learning. Creada por Alex Krizhevsky, Ilya Sutskever y Geoffrey Hinton, AlexNet redujo la tasa de error de clasificación de imágenes del 26% al 16% — una brecha tan grande que convenció a la comunidad de visión por computadora de que el deep learning era fundamentalmente superior a las características diseñadas a mano.

Por qué importa

AlexNet es el momento de "antes y después" en la historia de la IA. Antes de 2012, la mayoría de los investigadores de IA trabajaban en ingeniería de características y métodos no neuronales. Después de AlexNet, el deep learning se convirtió en el paradigma dominante. Cada sistema de IA moderno — GPT, Claude, Stable Diffusion — tiene su linaje en el cambio de paradigma que AlexNet desencadenó. Es el Big Bang de la IA moderna.

En profundidad

La arquitectura de AlexNet era relativamente simple para los estándares modernos: 5 capas convolucionales, 3 capas totalmente conectadas, activación ReLU, max pooling y dropout. El conteo total de parámetros era ~60 millones. Lo que la hizo especial fue el entrenamiento en GPU (dos GTX 580 con 3GB de VRAM cada una — minúsculo para los estándares actuales), el uso de aumento de datos y ser aplicada a los 1.2 millones de imágenes de entrenamiento de ImageNet — una escala que los enfoques neuronales anteriores no habían intentado.

Los tres ingredientes clave

El éxito de AlexNet provino de tres cosas que ahora son obvias pero fueron revolucionarias en 2012: (1) un dataset grande (ImageNet, 1.2M de imágenes), (2) entrenamiento en GPU (haciendo el cómputo factible), y (3) una arquitectura profunda con ReLU (evitando el problema de gradientes que se desvanecen que había limitado a las redes anteriores). Estos tres ingredientes — datos, cómputo e innovación arquitectónica — siguen siendo la receta para avances en IA hoy, solo que a una escala mucho mayor.

Las consecuencias

El impacto de AlexNet fue inmediato y permanente. En un año, cada entrada competitiva de ImageNet era una CNN profunda. En tres años, VGGNet y GoogLeNet fueron más profundas. ResNet (2015) alcanzó 152 capas. La comunidad de visión por computadora pivotó casi por completo al deep learning, y el enfoque se extendió a NLP (word embeddings, luego RNNs, luego Transformers), habla y eventualmente cada dominio de IA. El coautor Ilya Sutskever cofundó OpenAI.

AlexNet

Por qué importa

En profundidad

Los tres ingredientes clave

Las consecuencias

Conceptos relacionados