Zubnet AI學習Wiki › Batch Size & Epoch
訓練

Batch Size & Epoch

別名:小批量、訓練輪次
批量大小是模型在更新參數之前處理多少個訓練樣本。一個輪次(epoch)是對整個訓練資料集的一次完整遍歷。一個在 100 萬個樣本上以批量大小 1,000 訓練 3 個輪次的模型,每次更新處理 1,000 個樣本,每個輪次需要 1,000 次更新,總共 3,000 次更新。

為什麼重要

批量大小和輪次是訓練中最基本的控制項。批量大小影響訓練速度、記憶體使用,甚至影響模型學到什麼(小批量增加有助於泛化的雜訊;大批量收斂更快但泛化能力可能更差)。輪次數決定模型看到每個樣本的次數——太少會欠擬合,太多會過擬合。

深度解析

在實務上,隨機梯度下降以隨機小批量處理訓練資料。每個批量給出真實梯度的估計——更大的批量給出更好的估計(較少雜訊),但每步需要更多記憶體和算力。典型的批量大小從 32(小模型、單 GPU)到數百萬 token(跨數千 GPU 的 LLM 預訓練)。

大批量訓練的挑戰

LLM 預訓練使用巨大的有效批量大小(每次更新數百萬 token),分布在多個 GPU 上。在這種規模下,學習率必須仔細調整——線性縮放規則(批量大小加倍,學習率加倍)在一定程度內有效,然後會失效。梯度累積讓你在較小的硬體上模擬大批量,透過在多次前向傳遞中累積梯度後再更新。

LLM 時代的輪次

現代 LLM 預訓練通常在完整資料集上運行不到一個輪次——資料量如此之大,以至於模型從未看完所有資料。這是相較傳統機器學習(通常 10-100 個輪次)的一個轉變。研究顯示,重複資料(多個輪次)實際上可能因記憶效應而損害 LLM 效能,儘管這取決於資料品質。微調則通常在小得多的資料集上運行 1-5 個輪次。

相關概念

← 所有術語
← Autoregressive(自回歸) BERT →
ESC