權重：定義與含義 — AI 維基

神經網絡中在訓練過程中會被調整以最小化誤差的數值。每個神經元之間的連接都有一個權重，用來決定前一個神經元對下一個神經元的影響程度。當你下載一個模型文件——例如 .safetensors、.gguf 或 .pt 文件——你其實是在下載它的權重。「釋出權重」指的是公開這些文件，讓任何人都能運行該模型。權重就是模型本身；其他一切都是架構，只告訴你如何安排這些權重。

為什麼重要

當AI產業談到「開放權重」與「開放原始碼」的差異時，這個區別非常重要。僅有權重讓你能夠運行和微調模型，但如果沒有訓練程式碼、資料與方法，你就無法從頭開始重現這個模型。理解權重有助於掌握模型分佈、量化（降低權重精準度），以及為何一個70億參數模型在fp16格式下需要約14GB的磁碟空間。

深度解析

權重是一個浮點數。僅此而已。網絡中每兩個神經元之間的連接都攜帶其中一個數字，而現代大型語言模型擁有數十億個這樣的數字——以巨大的矩陣形式排列，每層一個矩陣。在訓練開始之前，這些矩陣會被填入看起來基本上隨機的值（稍後會更詳細說明初始化）。然後網絡接收到數據，透過損失函數計算其預測的錯誤程度，反向傳播會將該錯誤的梯度反向流經每一層，微調每個權重，使其朝著減少預測錯誤的方向調整。在數十億次的訓練中，透過數TB的文本資料，你會得到一個能寫詩、解釋量子力學或幫你除錯程式碼的模型。所有學習到的能力都儲存在這些權重中。沒有獨立的知識儲存，也沒有事實資料庫——只有透過純粹的統計壓力，組織成看起來很像理解的矩陣數字。

格式與精準度

你儲存這些數字的格式，可能比你預期的更重要。全精準度的權重使用 fp32——32 位浮點數——這能提供約 7 位小數的精準度，以及巨大的動態範圍。這就是研究人員多年來使用的標準，至今仍是數值穩定性的黃金標準。但 fp32 耗費成本：一個 70 億參數的模型在 fp32 下僅權重就佔 28 GB，還未計算優化器狀態或激活值。半精準度 fp16 可將其減半，但其有限的指數範圍在訓練時容易溢出或下溢。這時引入了 bf16——bfloat16——它保留 fp32 的指數範圍，但將尾數截斷為 16 位。Google 特別為深度學習開發了它，因為它在使用 fp32 一半記憶體的情況下，很少會出現數值爆炸問題，因此成為訓練的實際標準。對於推論，你還可以進一步壓縮：int8 量化將權重壓縮為 8 位整數（僅 fp32 的四分之一大小），品質損失驚人地小；int4——由 GPTQ 和 AWQ 方法先驅——再次減半。一個在 fp16 下需要 140 GB 的 70B 模型，在 4 位精準度下僅需約 35 GB，這就是為什麼量化讓你能在消費級 GPU 上運行嚴肅模型。

模型文件格式

當你下載模型時，文件格式決定了這些權重矩陣如何序列化到磁碟。多年來預設使用 PyTorch 的 .bin 格式，這只是將張量套用 Python 的 pickle 序列化。它有效，但 pickle 有知名的安全問題：一個惡意的 .bin 文件在載入時可以執行任意程式碼。Hugging Face 特別開發了 safetensors 來解決這個問題——它是一個簡單、記憶體映射的格式，僅包含張量數據和元數據，無法執行任何程式碼。Safetensors 還載入更快，因為它支援惰性載入和零拷貝讀取。它已成為 Hugging Face 及其他平台分發模型的標準。還有 GGUF，這是 llama.cpp 和更廣泛的本地推論生態系統使用的格式。GGUF 將權重、分詞器配置和模型元數據打包成一個自包含文件，通常內建量化。如果你在筆記型電腦或消費級 GPU 上本地運行模型，你幾乎肯定在使用 GGUF 文件。簡短來說：safetensors 用於分發和微調，GGUF 用於本地推論，而 .bin 僅在遇到舊版檢查點時才使用。

初始化的重要性

即使在訓練開始之前，你放入這些權重矩陣的值就已經塑造了後續的一切。如果全部初始化為零，網絡無法學習——每一層的每個神經元都計算相同的事物，梯度相同且對稱性永遠不會打破。如果初始化過大，激活值會爆炸；過小，梯度會在到達早期層之前消失為零。Xavier 初始化（2010 年）透過根據輸入和輸出連接數量（即 fan-in 和 fan-out）來縮放初始權重，解決了 sigmoid 和 tanh 網絡的問題。Kaiming 初始化（2015 年，He 等人的論文）則適應了 ReLU 激活函數，因為它們會將一半的輸入置零，行為不同。現代 Transformer 通常使用這些方法的變體，有時會針對注意力層調整額外的縮放因子。還有彩票票券假說（Frankle & Carlin, 2019），顯示在隨機初始化的網絡中，存在著小的子網絡——「中獎票券」——可以獨立訓練以匹配完整網絡的表現。這個暗示非常驚人：這些數十億個初始權重中，大部分可能是不必要的，理論上正確的稀疏初始化可以讓你以小得多的規模獲得相同的模型。實際上，可靠地找到這些中獎票券仍然昂貴，但這個想法已經影響了研究人員對剪枝和高效架構的思考方式。

權重、參數與「模型」

人們幾乎互換使用「權重」和「參數」，對大多數用途來說這是可以接受的——但技術上，參數包括偏置（每個神經元加權總和後加上的一個小常數）和任何其他學習到的值，如層正規化尺度。在一個典型的 Transformer 中，偏置僅佔總參數的一小部分，因此當有人說模型有 700 億參數時，實際上指的是 700 億權重。更深層的重點是，當你下載模型的權重文件時，你下載的是模型學習到的一切。架構——層數、寬度、激活函數——僅僅是藍圖。權重才是建築本身。兩個架構相同但權重不同的模型，如果在不同數據或不同時間訓練，行為會完全不同。這就是為什麼「釋出權重」是一個如此重要的行為：你不是分享一個設計，而是分享數百萬美元計算資源和數個月訓練的累積結果。知識就在這些數字中。

權重