La forma de sigmoid: es una curva en S centrada en 0. Para entradas positivas grandes, se satura cerca de 1. Para entradas negativas grandes, se satura cerca de 0. Alrededor de 0, transiciona suavemente. Esta forma la convirtió en una opción natural para las primeras redes neuronales: imita la tasa de disparo de una neurona biológica (apagado a encendido) y produce naturalmente salidas acotadas.
Sigmoid tiene dos problemas para redes profundas. Primero, gradientes que se desvanecen: en las regiones saturadas (entradas muy positivas o muy negativas), el gradiente es cercano a cero, lo que significa que el aprendizaje se detiene efectivamente para esas neuronas. Segundo, salidas no centradas en cero: sigmoid siempre produce valores positivos, lo que causa que los gradientes sean todos positivos o todos negativos, ralentizando la convergencia. ReLU resuelve ambos: tiene un gradiente constante de 1 para entradas positivas y está centrada en cero (para entradas positivas).
Sigmoid sigue siendo la opción correcta cuando necesitas específicamente una salida en (0, 1): clasificación binaria (probabilidad de la clase positiva), compuertas (cuánto dejar pasar, como en LSTMs), y cualquier operación donde necesites una activación suave y acotada. La función de activación SiLU (x · sigmoid(x)) trae de vuelta a sigmoid a las arquitecturas modernas en un rol de compuerta, combinando la suavidad de sigmoid con las propiedades de gradiente de la función identidad.