A forma da sigmoid: é uma curva em S centrada em 0. Para entradas grandes positivas, satura perto de 1. Para entradas grandes negativas, satura perto de 0. Em torno de 0, transiciona suavemente. Essa forma a tornou uma escolha natural para redes neurais iniciais: imita a taxa de disparo de um neurônio biológico (desligado para ligado) e naturalmente produz saídas limitadas.
Sigmoid tem dois problemas para redes profundas. Primeiro, gradientes que desaparecem: nas regiões saturadas (entradas muito positivas ou muito negativas), o gradiente é próximo de zero, o que significa que o aprendizado efetivamente para para esses neurônios. Segundo, saídas não centradas em zero: sigmoid sempre gera valores positivos, o que faz com que os gradientes sejam todos positivos ou todos negativos, desacelerando a convergência. ReLU resolve ambos: tem um gradiente constante de 1 para entradas positivas e é centrada em zero (para entradas positivas).
Sigmoid continua sendo a escolha certa quando você especificamente precisa de uma saída (0, 1): classificação binária (probabilidade da classe positiva), portões (quanto deixar passar, como em LSTMs) e qualquer operação onde você precisa de uma ativação suave e limitada. A função de ativação SiLU (x · sigmoid(x)) traz sigmoid de volta em arquiteturas modernas em um papel de portão, combinando a suavidade da sigmoid com as propriedades de gradiente da função identidade.