Zubnet AI学习Wiki › Sigmoid
基础

Sigmoid

别名:逻辑函数、S形函数
一个将任意实数压缩到(0, 1)范围的数学函数:σ(x) = 1 / (1 + e^(−x))。历史上是神经网络的默认激活函数,现已在隐藏层中被ReLU和GELU取代,但仍用于二元分类输出、门控机制(在LSTM和GLU中)以及需要0到1之间值的类注意力操作。

为什么重要

尽管Sigmoid不再是默认的隐藏层激活函数,但它在AI中无处不在。LSTM门控使用sigmoid。SiLU/Swish激活函数是x · sigmoid(x)。二元分类器使用sigmoid作为输出激活。理解sigmoid——以及它为什么被ReLU替代用于隐藏层——是理解神经网络设计选择的基础知识。

深度解析

Sigmoid的形状:它是以0为中心的S形曲线。对于大的正输入,它饱和接近1。对于大的负输入,它饱和接近0。在0附近,它平滑过渡。这种形状使其成为早期神经网络的自然选择:它模仿生物神经元的放电率(从关到开),并自然产生有界输出。

为什么被替换

Sigmoid对深度网络有两个问题。第一,梯度消失:在饱和区域(非常大的正或负输入),梯度接近零,意味着这些神经元的学习实际上停止了。第二,非零中心输出:sigmoid始终输出正值,这导致梯度要么全为正要么全为负,减慢收敛速度。ReLU解决了两者:对正输入有恒定梯度1,且(对正输入)以零为中心。

Sigmoid的存续之地

当你特别需要(0, 1)输出时,sigmoid仍然是正确的选择:二元分类(正类的概率)、门控(允许多少通过,如LSTM中的应用)以及任何需要平滑、有界激活的操作。SiLU激活函数(x · sigmoid(x))以门控角色将sigmoid带回现代架构,结合了sigmoid的平滑性和恒等函数的梯度特性。

相关概念

← 所有术语
← Scale AI Softmax →