Sigmoid: Definição e significado — Wiki de IA

Uma função matemática que comprime qualquer número real para o intervalo (0, 1): σ(x) = 1 / (1 + e^(−x)). Historicamente a função de ativação padrão em redes neurais, agora amplamente substituída por ReLU e GELU para camadas ocultas mas ainda usada para saídas de classificação binária, mecanismos de portão (em LSTMs e GLU) e operações similares à atenção onde você precisa de valores entre 0 e 1.

Por que isso importa

Sigmoid aparece em toda parte na IA mesmo não sendo mais a ativação padrão para camadas ocultas. Portões de LSTM usam sigmoid. A ativação SiLU/Swish é x · sigmoid(x). Classificadores binários usam sigmoid como ativação de saída. Entender sigmoid — e por que foi substituída por ReLU para camadas ocultas — é conhecimento fundamental para compreender escolhas de design de redes neurais.

Em profundidade

A forma da sigmoid: é uma curva em S centrada em 0. Para entradas grandes positivas, satura perto de 1. Para entradas grandes negativas, satura perto de 0. Em torno de 0, transiciona suavemente. Essa forma a tornou uma escolha natural para redes neurais iniciais: imita a taxa de disparo de um neurônio biológico (desligado para ligado) e naturalmente produz saídas limitadas.

Por Que Foi Substituída

Sigmoid tem dois problemas para redes profundas. Primeiro, gradientes que desaparecem: nas regiões saturadas (entradas muito positivas ou muito negativas), o gradiente é próximo de zero, o que significa que o aprendizado efetivamente para para esses neurônios. Segundo, saídas não centradas em zero: sigmoid sempre gera valores positivos, o que faz com que os gradientes sejam todos positivos ou todos negativos, desacelerando a convergência. ReLU resolve ambos: tem um gradiente constante de 1 para entradas positivas e é centrada em zero (para entradas positivas).

Onde Sigmoid Sobrevive

Sigmoid continua sendo a escolha certa quando você especificamente precisa de uma saída (0, 1): classificação binária (probabilidade da classe positiva), portões (quanto deixar passar, como em LSTMs) e qualquer operação onde você precisa de uma ativação suave e limitada. A função de ativação SiLU (x · sigmoid(x)) traz sigmoid de volta em arquiteturas modernas em um papel de portão, combinando a suavidade da sigmoid com as propriedades de gradiente da função identidade.

Sigmoid

Por que isso importa

Em profundidade

Por Que Foi Substituída

Onde Sigmoid Sobrevive

Conceitos relacionados