神經網路本質上是一連串矩陣乘法穿插非線性函數的運算鏈。每個「神經元」對其輸入進行加權求和,加上一個偏置項,然後通過一個啟動函數(ReLU、GELU、sigmoid 等)。將數千個這樣的神經元堆疊成層,將數十層堆疊起來,你就得到一個能夠學習驚人複雜函數的網路 —— 從人臉辨識到文本生成再到蛋白質折疊。魔力不在於任何單個神經元(那只是極其簡單的數學),而在於組合:層層堆疊,每一層學習輸入資料中越來越抽象的表徵。
訓練神經網路意味著為所有這些權重和偏置找到正確的值 —— 通常是數十億個。這通過反向傳播和梯度下降來實現。你向網路輸入一筆資料,將其輸出與期望答案比較,計算它有多錯(即損失),然後從後往前逐層計算每個權重對該錯誤的貢獻。每個權重都會朝著減少損失的方向微調。在整個資料集上重複這個過程數十億次,網路就會收斂到能產出有用輸出的權重。這個過程在概念上很直接,但在大規模下要讓它運作需要精心的工程:學習率排程、批量正規化、權重初始化策略,以及大量的 GPU 記憶體。
歷史背景有助於理解我們今天的處境。神經網路最早在 1940 年代被提出,在 1960 年代迎來全盛期(感知器),然後經歷了漫長的「AI 寒冬」而失寵。現代的復興大約始於 2012 年,當時一個名為 AlexNet 的深度卷積神經網路以驚人的差距贏得了 ImageNet 競賽。改變的不是理論 —— 反向傳播自 1980 年代就已存在 —— 而是硬體(GPU 使大規模並行運算變得可負擔)和資料(網際網路提供了比以往大幾個數量級的訓練集)。自此之後的每一個重大 AI 突破,從 AlphaGo 到 GPT-4 再到 Sora,都是某種形式的神經網路。
如今,「神經網路」一詞涵蓋了一個龐大的架構家族,各自適合不同的問題。卷積神經網路(CNN)利用空間結構主宰影像任務。循環神經網路(RNN)及其 LSTM 變體曾是處理序列資料的首選,直到 Transformer 取代了它們。Transformer 基於自注意力機制,驅動著幾乎所有現代 LLM。狀態空間模型(SSM)如 Mamba 為長序列提供了一種替代方案,具有線性時間複雜度而非 Transformer 的二次方成本。圖神經網路處理分子結構和社群網路。擴散模型(一種透過逆轉加噪過程進行訓練的神經網路)生成影像和影片。你選擇的架構決定了模型能高效學習什麼,而對問題選錯架構的影響可能比擁有更多資料或算力還要大。
一個持續存在的誤解是神經網路「像大腦一樣運作」。其實並不是。生物神經元透過定時電脈衝通訊、形成循環迴路、進行物理重新連線,在時間尺度和能量消耗上與矽晶截然不同。人工神經網路借用了連結節點的隱喻,然後幾乎完全走上了不同的道路。今天沒有人在做嚴謹的 AI 研究時會看神經科學論文來設計更好的 Transformer。大腦的類比對於建立五秒鐘的直覺(「它從範例中學習」)是有用的,但在更深層的理解上會產生誤導。神經網路的真正面貌 —— 透過梯度下降訓練的可微分函數近似器 —— 雖然不那麼浪漫,但在精確理解上更加實用。