Zubnet AIAprenderWiki › Função de Ativação
Fundamentos

Função de Ativação

Também conhecido como: ReLU, GELU, SiLU, Swish
Uma função matemática aplicada à saída de um neurônio que introduz não-linearidade na rede. Sem funções de ativação, uma rede neural — não importa quão profunda — só conseguiria aprender relações lineares. ReLU, GELU e SiLU/Swish são as mais comuns em arquiteturas modernas.

Por que isso importa

Funções de ativação são a razão pela qual deep learning funciona. Uma pilha de transformações lineares é apenas uma grande transformação linear. Funções de ativação entre camadas permitem que a rede aprenda padrões complexos e não-lineares — as curvas, bordas e relações sutis que tornam redes neurais poderosas.

Em profundidade

ReLU (Rectified Linear Unit) é a mais simples: f(x) = max(0, x). Ela produz zero para entradas negativas e passa entradas positivas inalteradas. ReLU resolveu o problema do gradiente que desaparece que assolava funções de ativação anteriores (sigmoid, tanh) ao fornecer um gradiente constante de 1 para entradas positivas. Sua simplicidade e eficácia a tornaram o padrão por mais de uma década.

Além da ReLU

GELU (Gaussian Error Linear Unit) é agora o padrão em Transformers (usada no BERT, GPT e na maioria dos LLMs). Diferente do corte abrupto da ReLU em zero, GELU suaviza gradualmente perto de zero, o que proporciona melhor fluxo de gradientes. SiLU/Swish (x · sigmoid(x)) é similar e usada em algumas arquiteturas como o LLaMA. As diferenças práticas entre GELU e SiLU são pequenas — ambas superam ReLU em modelos na escala de Transformers.

Variantes GLU

LLMs modernos frequentemente usam Gated Linear Units (GLU) e suas variantes (SwiGLU, GeGLU) nas camadas feed-forward. Essas multiplicam duas projeções lineares paralelas, efetivamente permitindo que a rede controle quais informações passam. SwiGLU (usado no LLaMA, Mistral e muitos outros) combina ativação SiLU com gating e consistentemente melhora em relação a camadas feed-forward padrão, ao custo de um pouco mais de parâmetros.

Conceitos relacionados

← Todos os termos
← Função de Perda GAN →