Sigmoid: Definición y significado — Wiki de IA

Una función matemática que comprime cualquier número real al rango (0, 1): σ(x) = 1 / (1 + e^(−x)). Históricamente la función de activación por defecto en redes neuronales, ahora reemplazada en gran medida por ReLU y GELU para capas ocultas, pero aún usada para salidas de clasificación binaria, mecanismos de compuerta (en LSTMs y GLU), y operaciones similares a atención donde necesitas valores entre 0 y 1.

Por qué importa

Sigmoid aparece en todas partes en IA aunque ya no sea la activación oculta por defecto. Las compuertas de LSTM usan sigmoid. La activación SiLU/Swish es x · sigmoid(x). Los clasificadores binarios usan sigmoid como activación de salida. Entender sigmoid — y por qué fue reemplazada por ReLU para capas ocultas — es conocimiento fundamental para comprender las decisiones de diseño de redes neuronales.

En profundidad

La forma de sigmoid: es una curva en S centrada en 0. Para entradas positivas grandes, se satura cerca de 1. Para entradas negativas grandes, se satura cerca de 0. Alrededor de 0, transiciona suavemente. Esta forma la convirtió en una opción natural para las primeras redes neuronales: imita la tasa de disparo de una neurona biológica (apagado a encendido) y produce naturalmente salidas acotadas.

Por qué fue reemplazada

Sigmoid tiene dos problemas para redes profundas. Primero, gradientes que se desvanecen: en las regiones saturadas (entradas muy positivas o muy negativas), el gradiente es cercano a cero, lo que significa que el aprendizaje se detiene efectivamente para esas neuronas. Segundo, salidas no centradas en cero: sigmoid siempre produce valores positivos, lo que causa que los gradientes sean todos positivos o todos negativos, ralentizando la convergencia. ReLU resuelve ambos: tiene un gradiente constante de 1 para entradas positivas y está centrada en cero (para entradas positivas).

Donde sigmoid sobrevive

Sigmoid sigue siendo la opción correcta cuando necesitas específicamente una salida en (0, 1): clasificación binaria (probabilidad de la clase positiva), compuertas (cuánto dejar pasar, como en LSTMs), y cualquier operación donde necesites una activación suave y acotada. La función de activación SiLU (x · sigmoid(x)) trae de vuelta a sigmoid a las arquitecturas modernas en un rol de compuerta, combinando la suavidad de sigmoid con las propiedades de gradiente de la función identidad.

Sigmoid

Por qué importa

En profundidad

Por qué fue reemplazada

Donde sigmoid sobrevive

Conceptos relacionados