參數：定義與含義 — AI 維基

神經網絡在訓練過程中學習到的內部值 — 本質上是將模型的「知識」編碼為數字。當有人說一個模型有「70 億參數」時，意思是這70 億個獨立數值是在訓練過程中調整的，用以捕捉數據中的模式。更多的參數通常意味著學習複雜模式的潛力更大，但也需要更多的記憶體來儲存，以及更多的計算資源來運行。

為什麼重要

參數數量是最常見的模型大小簡稱，它直接決定您需要多少GPU記憶體。一個7B模型在16位精度下，僅權重就需要約14GB的顯存。理解參數能幫助您估算成本、選擇硬體，並理解為何量化（降低每個參數的精準度）對讓模型更容易取得如此重要。

深度解析

當神經網絡進行訓練時，它會調整數百萬或數十億個組織成權重和偏置矩陣的數字。每個權重控制信號從一個神經元傳到下一個神經元的強度；每個偏置則會改變激活閾值。這些都是參數。訓練過程透過梯度下降進行——模型做出預測，衡量其錯誤程度（即損失），然後將每個參數微調一點點，朝著能減少預測錯誤的方向調整。在數兆個token上重複數十億次後，這些參數會收斂成能寫詩、除錯程式或解釋量子力學的東西。這些參數並不是查閱表或資料庫。它們是訓練資料中模式的壓縮、分散且有損的表示，而沒有任何單一參數本身知道任何東西。

軍備競賽

現代人工智慧的歷史可以用參數數量來敘述。2019年的GPT-2有15億個參數，人們認為它已經具有危險能力。2020年的GPT-3則有1750億個參數，徹底改變了遊戲規則。每次規模的躍進都釋放出小型模型無法匹敵的能力——少樣本學習、連貫的長文寫作、基本推理——實驗室之間競相訓練更大的模型。這不僅僅是行銷手法。OpenAI和DeepMind發表的擴展定律顯示，參數數量、訓練資料、計算預算和模型表現之間存在驚人平滑的關係。更多的參數、更多的訓練資料、更多的計算資源，意味著預測結果會更穩定地改善。這場軍備競賽在一段時間內是合理的。

總參數數 vs. 活躍參數數

並非所有參數都一樣，也並非所有參數在每次輸入時都會被使用。Mixtral和（據報導）GPT-4等混合專家（MoE）模型包含數十億個總參數，但路由網絡會為每個token選擇僅有一部分「專家」子網絡。Mixtral 8x7B總共有約470億個參數，但每次前向傳播只激活約130億個參數——這樣你就能以較小模型的推論成本獲得較大模型的品質。同時，DeepMind在2022年的Chinchilla擴展研究徹底顛覆了「越大越好」的假設。他們顯示大多數大型模型都訓練不足：一個在更多資料上訓練的較小模型，可以超越在較少資料上訓練的較大模型。Chinchilla在1.4兆個token上訓練了700億個參數，擊敗了2800億參數的Gopher。教訓是，如果不了解訓練所投入的資料和計算量，僅憑參數數量幾乎無法說明任何問題。

顯存數學

參數在GPU記憶體中有一個直接且無法避免的成本。每個參數存儲在fp16（16位浮點數）或bf16時需要2個位元組。因此，一個70億參數模型僅僅存儲權重就需要約14GB的顯存——這還不包括其他任何因素。量化為int8（8位整數）時，這會減少到7GB；進一步量化為4位時，則降至約3.5GB。這是推論階段。訓練則完全是另一回事，因為你還需要存儲梯度（與參數大小相同）、優化器狀態（通常Adam優化器為參數大小的2倍）以及反向傳播所需的激活值。一個粗略的經驗法則是：使用混合精度訓練模型，每個參數至少需要4到6個位元組，若包含完整的優化器狀態且沒有記憶體優化，則每個參數可能需要16到20個位元組。這就是為什麼一個70億參數模型在推論階段可以在單一消費者GPU上輕鬆運行，但在訓練階段卻需要一整群資料中心GPU。

超越參數數量

產業界已經大多超越了「堆疊更多參數是提升模型的主要途徑」的信念。來自多個方向的證據累積：Chinchilla證明資料量與模型大小一樣重要，Llama 3和Qwen 2.5等開放權重模型顯示，仔細的資料整理和更長的訓練時間可以使700億參數模型與更大模型競爭，而MoE、狀態空間模型和改進的注意力機制等架構創新，則在每參數性能上超越了純粹的規模擴展。目前的前沿是訓練效率、資料品質以及後訓練技術如RLHF和蒸餾——而不僅僅是讓參數計數器上升。參數數量仍然作為容量的粗略代理指標有所意義，但它越來越成為模型最無趣的特徵。

參數