Sigmoid：定义与含义 — AI 维基

一个将任意实数压缩到(0, 1)范围的数学函数：σ(x) = 1 / (1 + e^(−x))。历史上是神经网络的默认激活函数，现已在隐藏层中被ReLU和GELU取代，但仍用于二元分类输出、门控机制（在LSTM和GLU中）以及需要0到1之间值的类注意力操作。

为什么重要

尽管Sigmoid不再是默认的隐藏层激活函数，但它在AI中无处不在。LSTM门控使用sigmoid。SiLU/Swish激活函数是x · sigmoid(x)。二元分类器使用sigmoid作为输出激活。理解sigmoid——以及它为什么被ReLU替代用于隐藏层——是理解神经网络设计选择的基础知识。

深度解析

Sigmoid的形状：它是以0为中心的S形曲线。对于大的正输入，它饱和接近1。对于大的负输入，它饱和接近0。在0附近，它平滑过渡。这种形状使其成为早期神经网络的自然选择：它模仿生物神经元的放电率（从关到开），并自然产生有界输出。

为什么被替换

Sigmoid对深度网络有两个问题。第一，梯度消失：在饱和区域（非常大的正或负输入），梯度接近零，意味着这些神经元的学习实际上停止了。第二，非零中心输出：sigmoid始终输出正值，这导致梯度要么全为正要么全为负，减慢收敛速度。ReLU解决了两者：对正输入有恒定梯度1，且（对正输入）以零为中心。

Sigmoid的存续之地

当你特别需要(0, 1)输出时，sigmoid仍然是正确的选择：二元分类（正类的概率）、门控（允许多少通过，如LSTM中的应用）以及任何需要平滑、有界激活的操作。SiLU激活函数(x · sigmoid(x))以门控角色将sigmoid带回现代架构，结合了sigmoid的平滑性和恒等函数的梯度特性。

Sigmoid

为什么重要

深度解析

为什么被替换

Sigmoid的存续之地

相关概念