CNN: Definição e significado — Wiki de IA

Uma arquitetura de rede neural projetada para processar dados em grade (imagens, espectrogramas de áudio) deslizando pequenos filtros (kernels) sobre a entrada para detectar padrões locais como bordas, texturas e formas. CNNs dominaram a visão computacional de 2012 (AlexNet) até os Vision Transformers surgirem por volta de 2020. Ainda são amplamente usadas em produção, especialmente em dispositivos de borda.

Por que isso importa

CNNs deram o pontapé inicial na revolução do deep learning. A vitória do AlexNet no ImageNet em 2012 provou que redes neurais profundas podiam superar dramaticamente características projetadas manualmente, desencadeando o boom atual da IA. Entender CNNs ajuda a compreender por que Transformers funcionam (muitas das mesmas ideias — características hierárquicas, compartilhamento de parâmetros — se aplicam), e CNNs continuam sendo a melhor escolha para muitas tarefas de visão em dispositivos com recursos limitados.

Em profundidade

A operação central de uma CNN é a convolução: um filtro pequeno (digamos 3×3 pixels) desliza sobre a imagem, calculando um produto escalar em cada posição para detectar um padrão específico. Camadas iniciais aprendem padrões simples (bordas, gradientes de cor). Camadas mais profundas combinam esses padrões em características cada vez mais complexas (olhos, rodas, rostos). Camadas de pooling reduzem a resolução entre as camadas de convolução, diminuindo as dimensões espaciais enquanto preservam características importantes.

Por que CNNs Funcionam

Duas propriedades-chave tornam CNNs eficientes: equivariância translacional (um gato é um gato independentemente de onde aparece na imagem — o mesmo filtro o detecta em qualquer lugar) e localidade (pixels próximos são mais relacionados que pixels distantes). Essas propriedades reduzem drasticamente o número de parâmetros comparado a redes totalmente conectadas, tornando CNNs viáveis para imagens de alta resolução.

CNNs Além de Imagens

CNNs não se limitam a imagens. Convoluções 1D processam sequências (áudio, séries temporais). WaveNet (para síntese de fala) e alguns modelos de classificação de texto usam CNNs 1D. Em áudio, espectrogramas são tratados como imagens 2D e processados com CNNs 2D padrão. Mesmo na era dos Transformers, algumas arquiteturas híbridas usam camadas convolucionais para extração de características locais antes de alimentar camadas de attention.

CNN

Por que isso importa

Em profundidade

Por que CNNs Funcionam

CNNs Além de Imagens

Conceitos relacionados