神經網絡：定義與含義 — AI 維基

一種大致受生物大腦啟發的計算系統，由多層互相連結的「神經元」（數學函數）組成，從資料中學習模式。資訊流經各層，逐步被轉換，直到網路產出輸出結果。每個現代 AI 模型都是某種類型的神經網路。

為什麼重要

神經網路是所有 AI 背後的「如何做到的」。理解它們是數學（而非魔法，也非大腦）有助於去神秘化 AI 能做和不能做的事。它們是模式匹配器 —— 強大到不可思議的模式匹配器，但終究是模式匹配器。

深度解析

神經網路本質上是一連串矩陣乘法穿插非線性函數的運算鏈。每個「神經元」對其輸入進行加權求和，加上一個偏置項，然後通過一個啟動函數（ReLU、GELU、sigmoid 等）。將數千個這樣的神經元堆疊成層，將數十層堆疊起來，你就得到一個能夠學習驚人複雜函數的網路 —— 從人臉辨識到文本生成再到蛋白質折疊。魔力不在於任何單個神經元（那只是極其簡單的數學），而在於組合：層層堆疊，每一層學習輸入資料中越來越抽象的表徵。

訓練如何運作

訓練神經網路意味著為所有這些權重和偏置找到正確的值 —— 通常是數十億個。這通過反向傳播和梯度下降來實現。你向網路輸入一筆資料，將其輸出與期望答案比較，計算它有多錯（即損失），然後從後往前逐層計算每個權重對該錯誤的貢獻。每個權重都會朝著減少損失的方向微調。在整個資料集上重複這個過程數十億次，網路就會收斂到能產出有用輸出的權重。這個過程在概念上很直接，但在大規模下要讓它運作需要精心的工程：學習率排程、批量正規化、權重初始化策略，以及大量的 GPU 記憶體。

通往 2012 年的道路

歷史背景有助於理解我們今天的處境。神經網路最早在 1940 年代被提出，在 1960 年代迎來全盛期（感知器），然後經歷了漫長的「AI 寒冬」而失寵。現代的復興大約始於 2012 年，當時一個名為 AlexNet 的深度卷積神經網路以驚人的差距贏得了 ImageNet 競賽。改變的不是理論 —— 反向傳播自 1980 年代就已存在 —— 而是硬體（GPU 使大規模並行運算變得可負擔）和資料（網際網路提供了比以往大幾個數量級的訓練集）。自此之後的每一個重大 AI 突破，從 AlphaGo 到 GPT-4 再到 Sora，都是某種形式的神經網路。

架構動物園

如今，「神經網路」一詞涵蓋了一個龐大的架構家族，各自適合不同的問題。卷積神經網路（CNN）利用空間結構主宰影像任務。循環神經網路（RNN）及其 LSTM 變體曾是處理序列資料的首選，直到 Transformer 取代了它們。Transformer 基於自注意力機制，驅動著幾乎所有現代 LLM。狀態空間模型（SSM）如 Mamba 為長序列提供了一種替代方案，具有線性時間複雜度而非 Transformer 的二次方成本。圖神經網路處理分子結構和社群網路。擴散模型（一種透過逆轉加噪過程進行訓練的神經網路）生成影像和影片。你選擇的架構決定了模型能高效學習什麼，而對問題選錯架構的影響可能比擁有更多資料或算力還要大。

其實不是大腦

一個持續存在的誤解是神經網路「像大腦一樣運作」。其實並不是。生物神經元透過定時電脈衝通訊、形成循環迴路、進行物理重新連線，在時間尺度和能量消耗上與矽晶截然不同。人工神經網路借用了連結節點的隱喻，然後幾乎完全走上了不同的道路。今天沒有人在做嚴謹的 AI 研究時會看神經科學論文來設計更好的 Transformer。大腦的類比對於建立五秒鐘的直覺（「它從範例中學習」）是有用的，但在更深層的理解上會產生誤導。神經網路的真正面貌 —— 透過梯度下降訓練的可微分函數近似器 —— 雖然不那麼浪漫，但在精確理解上更加實用。

神經網絡