深度學習：定義與含義 — AI 維基

深度學習是機器學習的一個子領域，它使用具有許多層（因此稱為「深度」）的神經網絡來學習數據的層次化表示。每一層都會將其輸入轉換為稍微更抽象的東西——從像素到邊緣，再到形狀、物件與概念。深度學習正是使現代 AI 革命成為可能的關鍵：它正是大型語言模型（LLMs）、影像生成器、語音辨識，以及自 2012 年以來幾乎所有 AI 突破性進展背後的技術方法。

為什麼重要

深度學習是當前AI時代的引擎。在2012年之前，AI是由各種專門算法零散組合而成的。深度學習將所有內容統一於同一個架構下：堆疊足夠的層數、輸入足夠的數據、投入足夠的計算資源，模型便會自行處理其餘部分。理解深度學習，就是理解為何AI突然間開始有效運作。

深度解析

深度學習的歷史有一個具體的轉折點：2012 年的 ImageNet 競賽，Alex Krizhevsky 的卷積神經網絡（AlexNet）以遠遠超出其他方法的表現震撼了整個領域。亞軍使用的特徵是由電腦視覺博士生經過多年的精細調整所設計的手工特徵。AlexNet 則使用五層卷積層，在兩塊 GTX 580 GPU 上訓練約一週。它透過直接從像素學習特徵而獲勝，而且遠遠甩開對手——錯誤率在一年內從 26% 降至 16%。這個結果不僅僅是贏得競賽，它徹底改變了整個 AI 領域。在兩年內，幾乎所有頂尖的電腦視覺成果都採用了深度神經網絡。在五年內，同樣的方法已擴展至自然語言處理、語音辨識和遊戲對戰。這個教訓簡單卻殘酷：讓網絡自行解決問題，並給予足夠的數據與計算資源。

深度如何創造抽象

「深度學習」中的「深度」不只是行銷手法。深度是神經網絡建立抽象概念的機制。在影像分類器中，第一層學習偵測邊緣——簡單的導向梯度，對比邊界會有反應。第二層將這些邊緣組合成紋理與角落。第三層則將紋理組合成部分：一隻眼睛、一個輪胎、一片葉子。當到達最終層時，網絡已經在處理人類會辨識的高階概念。這種階層組合正是深度網絡能學習到淺層網絡無法做到的表示方式——每一層都建立在前一層之上，表示能力隨深度呈組合式成長。同樣的原則也適用於語言模型。早期層次捕捉詞元層次的語法與局部模式。中間層次發展出語境理解，追蹤句子之間的引用與關係。晚期層次處理抽象推理、任務識別與輸出規劃。沒有人明確編程這些層次去做這些事情。這種結構是透過足夠的數據與深度訓練自然產生的，這正是這方法的強大與神秘之處。

硬件依賴

沒有 GPU，深度學習根本不存在，這不是比喻。神經網絡訓練主要由矩陣乘法組成——前向傳播、反向傳播、權重更新，所有操作都可以歸結為乘上大型矩陣。CPU 是在幾個核心上順序執行這些操作。GPU 則是在數千個核心上並行執行。這差異不是 2 倍或 5 倍——而是對重要的操作來說，差異達 50 倍到 100 倍。NVIDIA 的 CUDA 平台原本是為視頻遊戲圖形設計的，結果證明它幾乎完美地適合訓練神經網絡。這項硬件歷史的意外，正是 NVIDIA 成為地球上最有價值公司之一的主要原因之一。這種依賴關係只會越來越深。現代訓練運行使用數千個 GPU 透過高速互連進行通信，而單次前沿模型訓練的成本從 2012 年的數千美元攀升至 2025 年的數億美元。這種硬件依賴也使得大多數沒有機構支持或雲端計算信用的研究人員難以接觸深度學習——這個領域至今尚未完全解決這個矛盾。

擴展假說

擴展假說指出，你可以透過讓模型變得更大——更多的參數、更多的數據、更多的計算資源——來讓模型變得更聰明，而且這種關係遵循可預測的冪律。數年來，這個假說看起來幾乎異常正確。GPT-2（15 億參數）幾乎無法寫出連貫的段落。GPT-3（1750 億參數）可以寫文章並進行少樣本學習。GPT-4 通過了律師資格考試。每次規模的提升都帶來了質的飛躍，而這些能力是沒有人明確訓練模型去具備的。但這個假說有其極限，而這個領域開始碰到這些極限。訓練數據正在耗盡——整個公共互聯網已經被抓取過，而合成數據則帶來自己的問題。計算成本變得對最富有的實驗室來說也難以負擔。而且一些能力（可靠的算術、一致的長期規劃、不產生幻覺）似乎無法單純透過規模來解決。結果是轉向效率：更好的架構、更好的訓練方法、更好的數據篩選，以及推理時間的技巧，如鏈式推理，從現有模型中提取更多能力。

我們現在的處境

截至 2026 年，Transformer 架構已經勝出。它主導語言模型，驅動大多數影像生成器（透過具有 Transformer 架構的擴散模型），處理音頻、視頻和多模態輸入。但主導地位並不意味永久。Transformer 的二次方注意力成本——每個 token 都要關注其他每個 token——為長序列創造了硬性擴展壁壘。這正在推動對替代方案的嚴肅研究。狀態空間模型（SSMs），特別是 Mamba 家族，透過維持壓縮的隱藏狀態而非明確的成對注意力，在線性時間內處理序列。混合架構將 Transformer 層與 SSM 層結合，顯示出強烈的成果，保持 Transformer 在短序列任務上的高品質，同時在長序列上獲得 SSM 的效率。下一代基礎模型幾乎肯定不會是純粹的 Transformer。它們會是混合體——在最重要的地方使用注意力，而在其他地方使用更高效的機制。深度學習的演化尚未結束。它只是完成了第一幕。

深度學習