Rede neural: Definição e significado — Wiki de IA

Um sistema de computação vagamente inspirado em cérebros biológicos, composto por camadas de "neurônios" interconectados (funções matemáticas) que aprendem padrões a partir de dados. A informação flui através das camadas, sendo progressivamente transformada até a rede produzir uma saída. Todo modelo de IA moderno é algum tipo de rede neural.

Por que isso importa

Redes neurais são o "como" por trás de toda a IA. Entender que são matemática (não mágica, não cérebros) ajuda a desmistificar o que a IA pode e não pode fazer. São reconhecedores de padrões — extraordinariamente poderosos, mas reconhecedores de padrões mesmo assim.

Em profundidade

Uma rede neural é, em essência, uma cadeia de multiplicações de matrizes intercaladas com funções não lineares. Cada "neurônio" faz uma soma ponderada de suas entradas, adiciona um termo de viés e passa o resultado por uma função de ativação (ReLU, GELU, sigmoide e outras). Empilhe milhares desses neurônios em camadas, empilhe dezenas de camadas em profundidade, e você terá uma rede capaz de aprender funções surpreendentemente complexas — desde reconhecer rostos até gerar prosa até dobrar proteínas. A mágica não está em nenhum neurônio individual (que é matemática trivialmente simples), mas na composição: camadas constroem sobre camadas, cada uma aprendendo representações progressivamente mais abstratas dos dados de entrada.

Como o Treinamento Funciona

Treinar uma rede neural significa encontrar os valores certos para todos esses pesos e viéses — frequentemente bilhões deles. Isso acontece através de backpropagation e gradient descent. Você alimenta a rede com uma entrada, compara sua saída com a resposta desejada, calcula o quão errada ela estava (a loss), e então trabalha de trás para frente através de cada camada calculando como cada peso contribuiu para aquele erro. Cada peso é levemente ajustado na direção que reduz a loss. Repita isso bilhões de vezes em todo o dataset, e a rede converge para pesos que produzem saídas úteis. O processo é conceitualmente direto, mas fazê-lo funcionar em escala requer engenharia cuidadosa: cronogramas de learning rate, batch normalization, estratégias de inicialização de pesos e muita memória de GPU.

O Caminho até 2012

A história importa para entender onde estamos hoje. Redes neurais foram propostas pela primeira vez nos anos 1940 e tiveram um auge nos anos 1960 (perceptrons), seguido por um longo "inverno da IA" quando caíram em desuso. O ressurgimento moderno começou por volta de 2012, quando uma rede neural convolucional profunda chamada AlexNet arrasou na competição ImageNet por uma margem que chocou o campo. O que mudou não foi a teoria — backpropagation já existia desde os anos 1980 — mas o hardware (GPUs tornaram o paralelismo massivo acessível) e os dados (a internet forneceu conjuntos de treinamento ordens de magnitude maiores que qualquer coisa anterior). Toda grande conquista de IA desde então, do AlphaGo ao GPT-4 ao Sora, foi uma rede neural de alguma variedade.

O Zoológico de Arquiteturas

Hoje, o termo "rede neural" abrange uma família extensa de arquiteturas, cada uma adequada a diferentes problemas. Redes neurais convolucionais (CNNs) dominam tarefas de imagem explorando estrutura espacial. Redes neurais recorrentes (RNNs) e suas variantes LSTM eram a escolha padrão para dados sequenciais antes dos Transformers substituí-las. Transformers, construídos sobre self-attention, alimentam virtualmente todos os LLMs modernos. State-space models (SSMs) como o Mamba oferecem uma alternativa para sequências longas com complexidade de tempo linear em vez do custo quadrático do Transformer. Graph neural networks lidam com estruturas moleculares e redes sociais. Modelos de difusão (um tipo de rede neural treinada para reverter um processo de adição de ruído) geram imagens e vídeo. A arquitetura que você escolhe determina o que seu modelo pode aprender eficientemente, e escolher a errada para o seu problema pode importar mais do que ter mais dados ou computação.

Não É Realmente um Cérebro

Um equivoco persistente é que redes neurais funcionam "como o cérebro". Na verdade, não. Neurônios biológicos se comunicam com pulsos elétricos temporais, formam loops recorrentes, se reconectam fisicamente e operam em escalas de tempo e orçamentos de energia totalmente diferentes do silício. Redes neurais artificiais tomaram emprestada a metáfora de nós conectados e depois divergiram quase completamente. Ninguém fazendo pesquisa séria em IA hoje olha para artigos de neurociência para projetar melhores Transformers. A analogia com o cérebro é útil para uma intuição de cinco segundos ("aprende a partir de exemplos"), mas enganosa para qualquer coisa mais profunda. O que redes neurais realmente são — aproximadores de funções diferenciáveis treinados por gradient descent — é tanto menos romântico quanto mais precisamente útil de entender.

Rede neural