層：定義與含義 — AI 維基

一組神經元，在神經網路中的特定抽象層級處理資料。輸入層接收原始資料。隱藏層（中間層）學習越來越抽象的表示。輸出層產生最終結果。「深度」學習意味著有許多隱藏層 — 現代 LLM 有 32 到 128 層以上。

為什麼重要

層創建了使深度學習強大的層級結構。早期層學習簡單模式（影像中的邊緣、文本中的詞彙片段）。中間層將這些組合成概念（臉部、短語）。深層將概念組合成高層級理解（場景辨識、推理）。網路的深度決定了它能學習的模式的複雜度。

深度解析

在 Transformer 中，每一層（稱為「區塊」）由兩個子層組成：一個多頭注意力層（在 token 之間混合資訊）和一個前饋網路（獨立處理每個 token）。每個子層都有殘差連接（輸入被加回到輸出）和正規化。一個 32 層的 Transformer 會應用這種注意力+前饋模式 32 次，每次都精煉表示。

跨層發生了什麼

研究揭示了 LLM 中的大致模式：早期層處理語法和表面模式，中間層處理語意含義和實體辨識，後期層處理任務特定的推理和輸出格式化。這不是硬性邊界 — 資訊通過殘差連接流經所有層 — 但這解釋了為什麼某些微調技術只修改特定層，以及為什麼修剪中間層通常比修剪早期或後期層造成更大的損害。

寬度與深度

網路的「寬度」是每層的神經元數量（模型維度）。其「深度」是層數。兩者都很重要，但貢獻方式不同：更寬的層可以同時表示更多特徵，而更深的網路可以學習更複雜的組合模式。現代 LLM 傾向於既寬（維度 4096–8192）又深（32–128 層）。縮放定律表明，寬度和深度應該一起縮放以達到最佳效能。

層

為什麼重要

深度解析

跨層發生了什麼

寬度與深度

相關概念