Zubnet AI學習Wiki › Sigmoid
基礎

Sigmoid

別名:邏輯函數、S 型函數

一個數學函數,將任何實數壓縮到 (0, 1) 的範圍:σ(x) = 1 / (1 + e^(−x))。歷史上是神經網路的預設激活函數,現在在隱藏層中已大部分被 ReLU 和 GELU 取代,但仍用於二元分類輸出、門控機制(如 LSTM 和 GLU),以及需要值介於 0 和 1 之間的類注意力操作。

為什麼重要

Sigmoid 在 AI 中無處不在,儘管它不再是預設的隱藏激活函數。LSTM 門使用 sigmoid。SiLU/Swish 激活是 x · sigmoid(x)。二元分類器使用 sigmoid 作為輸出激活。理解 sigmoid — 以及它為何在隱藏層中被 ReLU 取代 — 是理解神經網路設計選擇的基礎知識。

深度解析

Sigmoid 的形狀:它是一條以 0 為中心的 S 曲線。對於大的正輸入,它飽和接近 1。對於大的負輸入,它飽和接近 0。在 0 附近,它平滑過渡。這種形狀使它成為早期神經網路的自然選擇:它模仿生物神經元的放電率(從關到開),並自然地產生有界輸出。

為什麼被取代

Sigmoid 在深度網路中有兩個問題。第一,梯度消失:在飽和區域(非常正或非常負的輸入),梯度接近零,意味著那些神經元的學習實際上停止了。第二,輸出非零中心:sigmoid 總是輸出正值,這導致梯度要麼全為正要麼全為負,減慢了收斂。ReLU 解決了這兩個問題:對於正輸入,它有恆定的梯度 1,並且是零中心的(對於正輸入)。

Sigmoid 存續之處

當你特別需要 (0, 1) 輸出時,Sigmoid 仍然是正確的選擇:二元分類(正類的機率)、門控(讓多少通過,如 LSTM 中)、以及任何需要平滑、有界激活的操作。SiLU 激活函數(x · sigmoid(x))以門控角色將 sigmoid 帶回現代架構中,結合了 sigmoid 的平滑性和恆等函數的梯度特性。

相關概念

← 所有術語
← Self-Supervised Learning(自監督式學習) Softmax →