Sigmoid：定義與含義 — AI 維基

一個數學函數，將任何實數壓縮到 (0, 1) 的範圍：σ(x) = 1 / (1 + e^(−x))。歷史上是神經網路的預設激活函數，現在在隱藏層中已大部分被 ReLU 和 GELU 取代，但仍用於二元分類輸出、門控機制（如 LSTM 和 GLU），以及需要值介於 0 和 1 之間的類注意力操作。

為什麼重要

Sigmoid 在 AI 中無處不在，儘管它不再是預設的隱藏激活函數。LSTM 門使用 sigmoid。SiLU/Swish 激活是 x · sigmoid(x)。二元分類器使用 sigmoid 作為輸出激活。理解 sigmoid — 以及它為何在隱藏層中被 ReLU 取代 — 是理解神經網路設計選擇的基礎知識。

深度解析

Sigmoid 的形狀：它是一條以 0 為中心的 S 曲線。對於大的正輸入，它飽和接近 1。對於大的負輸入，它飽和接近 0。在 0 附近，它平滑過渡。這種形狀使它成為早期神經網路的自然選擇：它模仿生物神經元的放電率（從關到開），並自然地產生有界輸出。

為什麼被取代

Sigmoid 在深度網路中有兩個問題。第一，梯度消失：在飽和區域（非常正或非常負的輸入），梯度接近零，意味著那些神經元的學習實際上停止了。第二，輸出非零中心：sigmoid 總是輸出正值，這導致梯度要麼全為正要麼全為負，減慢了收斂。ReLU 解決了這兩個問題：對於正輸入，它有恆定的梯度 1，並且是零中心的（對於正輸入）。

Sigmoid 存續之處

當你特別需要 (0, 1) 輸出時，Sigmoid 仍然是正確的選擇：二元分類（正類的機率）、門控（讓多少通過，如 LSTM 中）、以及任何需要平滑、有界激活的操作。SiLU 激活函數（x · sigmoid(x)）以門控角色將 sigmoid 帶回現代架構中，結合了 sigmoid 的平滑性和恆等函數的梯度特性。

Sigmoid

為什麼重要

深度解析

為什麼被取代

Sigmoid 存續之處

相關概念