權重是一個浮點數。僅此而已。網絡中每兩個神經元之間的連接都攜帶其中一個數字,而現代大型語言模型擁有數十億個這樣的數字——以巨大的矩陣形式排列,每層一個矩陣。在訓練開始之前,這些矩陣會被填入看起來基本上隨機的值(稍後會更詳細說明初始化)。然後網絡接收到數據,透過損失函數計算其預測的錯誤程度,反向傳播會將該錯誤的梯度反向流經每一層,微調每個權重,使其朝著減少預測錯誤的方向調整。在數十億次的訓練中,透過數TB的文本資料,你會得到一個能寫詩、解釋量子力學或幫你除錯程式碼的模型。所有學習到的能力都儲存在這些權重中。沒有獨立的知識儲存,也沒有事實資料庫——只有透過純粹的統計壓力,組織成看起來很像理解的矩陣數字。
你儲存這些數字的格式,可能比你預期的更重要。全精準度的權重使用 fp32——32 位浮點數——這能提供約 7 位小數的精準度,以及巨大的動態範圍。這就是研究人員多年來使用的標準,至今仍是數值穩定性的黃金標準。但 fp32 耗費成本:一個 70 億參數的模型在 fp32 下僅權重就佔 28 GB,還未計算優化器狀態或激活值。半精準度 fp16 可將其減半,但其有限的指數範圍在訓練時容易溢出或下溢。這時引入了 bf16——bfloat16——它保留 fp32 的指數範圍,但將尾數截斷為 16 位。Google 特別為深度學習開發了它,因為它在使用 fp32 一半記憶體的情況下,很少會出現數值爆炸問題,因此成為訓練的實際標準。對於推論,你還可以進一步壓縮:int8 量化將權重壓縮為 8 位整數(僅 fp32 的四分之一大小),品質損失驚人地小;int4——由 GPTQ 和 AWQ 方法先驅——再次減半。一個在 fp16 下需要 140 GB 的 70B 模型,在 4 位精準度下僅需約 35 GB,這就是為什麼量化讓你能在消費級 GPU 上運行嚴肅模型。
當你下載模型時,文件格式決定了這些權重矩陣如何序列化到磁碟。多年來預設使用 PyTorch 的 .bin 格式,這只是將張量套用 Python 的 pickle 序列化。它有效,但 pickle 有知名的安全問題:一個惡意的 .bin 文件在載入時可以執行任意程式碼。Hugging Face 特別開發了 safetensors 來解決這個問題——它是一個簡單、記憶體映射的格式,僅包含張量數據和元數據,無法執行任何程式碼。Safetensors 還載入更快,因為它支援惰性載入和零拷貝讀取。它已成為 Hugging Face 及其他平台分發模型的標準。還有 GGUF,這是 llama.cpp 和更廣泛的本地推論生態系統使用的格式。GGUF 將權重、分詞器配置和模型元數據打包成一個自包含文件,通常內建量化。如果你在筆記型電腦或消費級 GPU 上本地運行模型,你幾乎肯定在使用 GGUF 文件。簡短來說:safetensors 用於分發和微調,GGUF 用於本地推論,而 .bin 僅在遇到舊版檢查點時才使用。
即使在訓練開始之前,你放入這些權重矩陣的值就已經塑造了後續的一切。如果全部初始化為零,網絡無法學習——每一層的每個神經元都計算相同的事物,梯度相同且對稱性永遠不會打破。如果初始化過大,激活值會爆炸;過小,梯度會在到達早期層之前消失為零。Xavier 初始化(2010 年)透過根據輸入和輸出連接數量(即 fan-in 和 fan-out)來縮放初始權重,解決了 sigmoid 和 tanh 網絡的問題。Kaiming 初始化(2015 年,He 等人的論文)則適應了 ReLU 激活函數,因為它們會將一半的輸入置零,行為不同。現代 Transformer 通常使用這些方法的變體,有時會針對注意力層調整額外的縮放因子。還有彩票票券假說(Frankle & Carlin, 2019),顯示在隨機初始化的網絡中,存在著小的子網絡——「中獎票券」——可以獨立訓練以匹配完整網絡的表現。這個暗示非常驚人:這些數十億個初始權重中,大部分可能是不必要的,理論上正確的稀疏初始化可以讓你以小得多的規模獲得相同的模型。實際上,可靠地找到這些中獎票券仍然昂貴,但這個想法已經影響了研究人員對剪枝和高效架構的思考方式。
人們幾乎互換使用「權重」和「參數」,對大多數用途來說這是可以接受的——但技術上,參數包括偏置(每個神經元加權總和後加上的一個小常數)和任何其他學習到的值,如層正規化尺度。在一個典型的 Transformer 中,偏置僅佔總參數的一小部分,因此當有人說模型有 700 億參數時,實際上指的是 700 億權重。更深層的重點是,當你下載模型的權重文件時,你下載的是模型學習到的一切。架構——層數、寬度、激活函數——僅僅是藍圖。權重才是建築本身。兩個架構相同但權重不同的模型,如果在不同數據或不同時間訓練,行為會完全不同。這就是為什麼「釋出權重」是一個如此重要的行為:你不是分享一個設計,而是分享數百萬美元計算資源和數個月訓練的累積結果。知識就在這些數字中。