Zubnet AI學習Wiki › 層
基礎

別名:隱藏層、神經網路層

一組神經元,在神經網路中的特定抽象層級處理資料。輸入層接收原始資料。隱藏層(中間層)學習越來越抽象的表示。輸出層產生最終結果。「深度」學習意味著有許多隱藏層 — 現代 LLM 有 32 到 128 層以上。

為什麼重要

層創建了使深度學習強大的層級結構。早期層學習簡單模式(影像中的邊緣、文本中的詞彙片段)。中間層將這些組合成概念(臉部、短語)。深層將概念組合成高層級理解(場景辨識、推理)。網路的深度決定了它能學習的模式的複雜度。

深度解析

在 Transformer 中,每一層(稱為「區塊」)由兩個子層組成:一個多頭注意力層(在 token 之間混合資訊)和一個前饋網路(獨立處理每個 token)。每個子層都有殘差連接(輸入被加回到輸出)和正規化。一個 32 層的 Transformer 會應用這種注意力+前饋模式 32 次,每次都精煉表示。

跨層發生了什麼

研究揭示了 LLM 中的大致模式:早期層處理語法和表面模式,中間層處理語意含義和實體辨識,後期層處理任務特定的推理和輸出格式化。這不是硬性邊界 — 資訊通過殘差連接流經所有層 — 但這解釋了為什麼某些微調技術只修改特定層,以及為什麼修剪中間層通常比修剪早期或後期層造成更大的損害。

寬度與深度

網路的「寬度」是每層的神經元數量(模型維度)。其「深度」是層數。兩者都很重要,但貢獻方式不同:更寬的層可以同時表示更多特徵,而更深的網路可以學習更複雜的組合模式。現代 LLM 傾向於既寬(維度 4096–8192)又深(32–128 層)。縮放定律表明,寬度和深度應該一起縮放以達到最佳效能。

相關概念

← 所有術語
← 小米 嵌入 →
ESC