Zubnet AI學習Wiki › 參數
基礎

參數

別名:權重、模型參數
神經網絡在訓練過程中學習到的內部值 — 本質上是將模型的「知識」編碼為數字。當有人說一個模型有「70 億 參數」時,意思是這70 億 個獨立數值是在訓練過程中調整的,用以捕捉數據中的模式。更多的參數通常意味著學習複雜模式的潛力更大,但也需要更多的記憶體來儲存,以及更多的計算資源來運行。

為什麼重要

參數數量是最常見的模型大小簡稱,它直接決定您需要多少GPU記憶體。一個7B模型在16位精度下,僅權重就需要約14GB的顯存。理解參數能幫助您估算成本、選擇硬體,並理解為何量化(降低每個參數的精準度)對讓模型更容易取得如此重要。

深度解析

當神經網絡進行訓練時,它會調整數百萬或數十億個組織成權重和偏置矩陣的數字。每個權重控制信號從一個神經元傳到下一個神經元的強度;每個偏置則會改變激活閾值。這些都是參數。訓練過程透過梯度下降進行——模型做出預測,衡量其錯誤程度(即損失),然後將每個參數微調一點點,朝著能減少預測錯誤的方向調整。在數兆個token上重複數十億次後,這些參數會收斂成能寫詩、除錯程式或解釋量子力學的東西。這些參數並不是查閱表或資料庫。它們是訓練資料中模式的壓縮、分散且有損的表示,而沒有任何單一參數本身知道任何東西。

軍備競賽

現代人工智慧的歷史可以用參數數量來敘述。2019年的GPT-2有15億個參數,人們認為它已經具有危險能力。2020年的GPT-3則有1750億個參數,徹底改變了遊戲規則。每次規模的躍進都釋放出小型模型無法匹敵的能力——少樣本學習、連貫的長文寫作、基本推理——實驗室之間競相訓練更大的模型。這不僅僅是行銷手法。OpenAI和DeepMind發表的擴展定律顯示,參數數量、訓練資料、計算預算和模型表現之間存在驚人平滑的關係。更多的參數、更多的訓練資料、更多的計算資源,意味著預測結果會更穩定地改善。這場軍備競賽在一段時間內是合理的。

總參數數 vs. 活躍參數數

並非所有參數都一樣,也並非所有參數在每次輸入時都會被使用。Mixtral和(據報導)GPT-4等混合專家(MoE)模型包含數十億個總參數,但路由網絡會為每個token選擇僅有一部分「專家」子網絡。Mixtral 8x7B總共有約470億個參數,但每次前向傳播只激活約130億個參數——這樣你就能以較小模型的推論成本獲得較大模型的品質。同時,DeepMind在2022年的Chinchilla擴展研究徹底顛覆了「越大越好」的假設。他們顯示大多數大型模型都訓練不足:一個在更多資料上訓練的較小模型,可以超越在較少資料上訓練的較大模型。Chinchilla在1.4兆個token上訓練了700億個參數,擊敗了2800億參數的Gopher。教訓是,如果不了解訓練所投入的資料和計算量,僅憑參數數量幾乎無法說明任何問題。

顯存數學

參數在GPU記憶體中有一個直接且無法避免的成本。每個參數存儲在fp16(16位浮點數)或bf16時需要2個位元組。因此,一個70億參數模型僅僅存儲權重就需要約14GB的顯存——這還不包括其他任何因素。量化為int8(8位整數)時,這會減少到7GB;進一步量化為4位時,則降至約3.5GB。這是推論階段。訓練則完全是另一回事,因為你還需要存儲梯度(與參數大小相同)、優化器狀態(通常Adam優化器為參數大小的2倍)以及反向傳播所需的激活值。一個粗略的經驗法則是:使用混合精度訓練模型,每個參數至少需要4到6個位元組,若包含完整的優化器狀態且沒有記憶體優化,則每個參數可能需要16到20個位元組。這就是為什麼一個70億參數模型在推論階段可以在單一消費者GPU上輕鬆運行,但在訓練階段卻需要一整群資料中心GPU。

超越參數數量

產業界已經大多超越了「堆疊更多參數是提升模型的主要途徑」的信念。來自多個方向的證據累積:Chinchilla證明資料量與模型大小一樣重要,Llama 3和Qwen 2.5等開放權重模型顯示,仔細的資料整理和更長的訓練時間可以使700億參數模型與更大模型競爭,而MoE、狀態空間模型和改進的注意力機制等架構創新,則在每參數性能上超越了純粹的規模擴展。目前的前沿是訓練效率、資料品質以及後訓練技術如RLHF和蒸餾——而不僅僅是讓參數計數器上升。參數數量仍然作為容量的粗略代理指標有所意義,但它越來越成為模型最無趣的特徵。

相關概念

← 所有術語
← 過擬合 Perplexity →
ESC