尽管Sigmoid不再是默认的隐藏层激活函数,但它在AI中无处不在。LSTM门控使用sigmoid。SiLU/Swish激活函数是x · sigmoid(x)。二元分类器使用sigmoid作为输出激活。理解sigmoid——以及它为什么被ReLU替代用于隐藏层——是理解神经网络设计选择的基础知识。
Sigmoid的形状:它是以0为中心的S形曲线。对于大的正输入,它饱和接近1。对于大的负输入,它饱和接近0。在0附近,它平滑过渡。这种形状使其成为早期神经网络的自然选择:它模仿生物神经元的放电率(从关到开),并自然产生有界输出。
Sigmoid对深度网络有两个问题。第一,梯度消失:在饱和区域(非常大的正或负输入),梯度接近零,意味着这些神经元的学习实际上停止了。第二,非零中心输出:sigmoid始终输出正值,这导致梯度要么全为正要么全为负,减慢收敛速度。ReLU解决了两者:对正输入有恒定梯度1,且(对正输入)以零为中心。
当你特别需要(0, 1)输出时,sigmoid仍然是正确的选择:二元分类(正类的概率)、门控(允许多少通过,如LSTM中的应用)以及任何需要平滑、有界激活的操作。SiLU激活函数(x · sigmoid(x))以门控角色将sigmoid带回现代架构,结合了sigmoid的平滑性和恒等函数的梯度特性。