Transformer：定義與含義 — AI 維基

幾乎所有現代大型語言模型 (LLM) 和許多影像/音訊模型所採用的神經網絡架構。由 Google 於 2017 年發表的論文《Attention Is All You Need》所提出，Transformers 使用自注意力機制同時處理輸入的所有部分，而非依序處理，這使得在訓練過程中能夠實現極大的平行處理能力。

為什麼重要

Transformer 是讓現今 AI 風潮成為可能的架構。GPT、Claude、Gemini、Llama、Mistral — 它們的實際運作方式都是基於 Transformer。了解這種架構有助於理解為什麼模型會有這些能力與限制。

深度解析

Transformer 模塊包含兩個主要組件堆疊在一起：多頭自注意力層與前饋網絡（FFN），每個組件都包裝在層規範化與殘差連接中。注意力層負責資訊路由——它決定哪些 token 應該影響其他哪些 token。FFN 負責資訊處理——它透過一個更寬的隱藏層（通常為模型維度的 4 倍）與非線性函數，獨立地轉換每個 token 的表示。模型的大多數參數位於 FFN 層中，研究顯示這正是事實知識的存放處，而注意力層則學習關係與語法模式。堆疊 32 到 128 個這樣的模塊，你就得到了現代的 LLM。

三個變體

2017 年原始的「Attention Is All You Need」論文描述了一種用於機器翻譯的編碼器-解碼器架構。編碼器處理輸入序列並產生上下文化的表示；解碼器則逐個 token 生成輸出序列，透過交叉注意力同時關注自己的先前輸出與編碼器的輸出。但這個領域很快分岔為三個變體。僅使用編碼器的模型（如 BERT）會雙向處理完整輸入，適合分類與檢索。僅使用解碼器的模型（GPT、Claude、Llama、Mistral）透過因果遮罩讓每個 token 只能關注先前的 token——這正是文本生成所需的特性。編碼器-解碼器模型（T5、BART）保留了原始架構，適合翻譯與摘要。僅使用解碼器的變體在規模競賽中勝出，因為它較易訓練且自然支援自回歸生成。

規模定律

規模定律是讓 Transformer 從架構轉變為產業的關鍵。Chinchilla 論文（Hoffmann 等人，2022）顯示模型效能會隨著計算、數據與參數數量以冪定律預測性地提升。這表示在訓練前就能預測模型表現，使 LLM 開發轉為工程問題，並有相對可預測的投資回報率。這種可預測性正是支持數十億美元 GPU 集群的依據。它也顯示當時大多數模型都訓練不足——在固定計算預算下，使用更多數據訓練較小模型的表現會優於使用較少數據訓練較大模型。這項洞察重塑了整個產業：Llama、Mistral 和 Gemma 都相較於早期模型，以遠超其參數數量的 token 數量進行訓練。

現代 Transformer 已與原始論文有顯著差異。預規範化（Pre-norm，即在注意力/FFN 之前而非之後應用層規範化）現已成為標準，因為它能穩定大規模訓練。RMSNorm 取代 LayerNorm 以提高效率。旋轉位置編碼（Rotary Position Embeddings，RoPE）取代學習或正弦位置編碼，因為它在模型訓練長度以外的序列上泛化效果更好。SwiGLU 激活函數取代 FFN 中的 ReLU 以提升效能。分組查詢注意力（Grouped-Query Attention，GQA）透過在查詢頭之間共享鍵值頭來縮小 KV 緩存。Flash Attention 重構了注意力計算以提高記憶體效率而不改變數學運算。這些改變都未改變基本架構，但共同代表了多年工程迭代，使訓練與部署大型模型變得實際可行。

規模壁壘

Transformer 最大的實用限制是注意力機制對序列長度的二次方成本。每個 token 必須關注所有先前 token，因此處理 128K token 上下文所需的計算量比處理 4K 上下文高出數個數量級。這推動了長上下文 API 調用的成本，也解釋了為什麼 SSMs 和混合架構等替代方案正被積極研究。KV 緩存——在生成過程中必須保留在記憶體中的所有先前 token 的鍵值對——是另一個主要瓶頸。對於生成長序列的大型模型，KV 緩存消耗的 GPU 記憶體可能超過模型權重本身。分頁注意力（vLLM）、量化 KV 緩存與預測解碼等技術都是對根本架構限制的工程回應。Transformer 不會在短時間內消失，但下一代架構幾乎肯定會是混合型，保留其優勢同時解決這些規模限制。

Transformer

為什麼重要

深度解析

三個變體

規模定律

規模壁壘

相關概念