AlexNet: Definição e significado — Wiki de IA

A rede neural convolucional que venceu a competição ImageNet 2012 por uma margem massiva, desencadeando a revolução do deep learning. Criada por Alex Krizhevsky, Ilya Sutskever e Geoffrey Hinton, AlexNet reduziu a taxa de erro de classificação de imagens de 26% para 16% — uma diferença tão grande que convenceu a comunidade de visão computacional de que deep learning era fundamentalmente superior a features engenheiradas manualmente.

Por que isso importa

AlexNet é o momento "antes e depois" na história da IA. Antes de 2012, a maioria dos pesquisadores de IA trabalhava com engenharia de features e métodos não-neurais. Depois de AlexNet, deep learning se tornou o paradigma dominante. Todo sistema moderno de IA — GPT, Claude, Stable Diffusion — traça sua linhagem até a mudança de paradigma que AlexNet desencadeou. É o Big Bang da IA moderna.

Em profundidade

A arquitetura de AlexNet era relativamente simples pelos padrões modernos: 5 camadas convolucionais, 3 camadas totalmente conectadas, ativação ReLU, max pooling e dropout. A contagem total de parâmetros era ~60 milhões. O que a tornou especial foi treinar em GPUs (duas GTX 580 com 3GB VRAM cada — minúsculas pelos padrões de hoje), usar data augmentation e ser aplicada aos 1,2 milhão de imagens de treinamento do ImageNet — uma escala que abordagens neurais anteriores não haviam tentado.

Os Três Ingredientes Chave

O sucesso de AlexNet veio de três coisas que agora são óbvias mas eram revolucionárias em 2012: (1) dataset grande (ImageNet, 1,2M imagens), (2) treinamento em GPU (tornando a computação viável) e (3) arquitetura profunda com ReLU (evitando o problema de gradiente que desaparece que havia limitado redes anteriores). Esses três ingredientes — dados, computação e inovação arquitetural — continuam sendo a receita para avanços em IA hoje, apenas em escala muito maior.

O Pós-Impacto

O impacto de AlexNet foi imediato e permanente. Em um ano, toda entrada competitiva no ImageNet era uma CNN profunda. Em três anos, VGGNet e GoogLeNet foram mais fundo. ResNet (2015) alcançou 152 camadas. A comunidade de visão computacional pivotou quase inteiramente para deep learning, e a abordagem se espalhou para NLP (word embeddings, depois RNNs, depois Transformers), fala e eventualmente todo domínio de IA. O coautor Ilya Sutskever foi cofundar a OpenAI.

AlexNet

Por que isso importa

Em profundidade

Os Três Ingredientes Chave

O Pós-Impacto

Conceitos relacionados