Zubnet AI學習Wiki › Validation Set
訓練

Validation Set

別名:開發集、保留集
從訓練中保留的資料子集,用於在開發過程中評估模型效能和調整超參數。三向劃分:訓練集訓練模型,驗證集引導關於模型的決策(學習率、架構、何時停止),測試集提供最終的、無偏的效能估計。驗證集是你在開發過程中的鏡子。

為什麼重要

沒有驗證集,你就是在盲飛。訓練損失告訴你模型對訓練資料的擬合程度,但不能告訴你它的泛化能力。驗證集回答了真正重要的問題:「這個模型在它沒見過的資料上表現如何?」模型開發過程中的每個決策——超參數、架構選擇、訓練時長——都應該在驗證集上評估。

深度解析

典型的劃分比例:80% 訓練、10% 驗證、10% 測試。對於大型資料集,驗證和測試的較小百分比就已足夠(即使是一百萬個樣本的 1% 也有 10,000 個——足以進行可靠的評估)。對於小型資料集,交叉驗證更為推薦(參見:交叉驗證)。關鍵規則:在開發過程中永遠不要使用測試集做任何決策。它只用於最終評估。如果你在開發期間偷看了測試集,你的效能估計就會有偏差。

分層抽樣

在劃分資料時,確保每個劃分都有類別、領域和其他重要特徵的代表性分布。如果你的資料集 90% 是英文、10% 是法文,隨機劃分可能會把所有法文樣本都放進訓練集,使你無法評估法文效能。分層劃分確保每個劃分中的比例代表性。對於時間序列資料,使用時間劃分(在過去資料上訓練,在未來資料上驗證)而非隨機劃分。

LLM 開發中的驗證

對於 LLM 預訓練,驗證集是訓練語料庫的保留部分,用於在訓練期間計算困惑度。對於微調,它是微調資料集的保留部分。對於對齊(RLHF/DPO),驗證更加複雜:自動化指標(獎勵模型分數)加上在保留提示上的人工評估。驗證策略應該匹配模型的實際使用方式——如果使用者會問多樣化的問題,驗證集就應該是多樣化的。

相關概念

← 所有術語
ESC
Start typing to search...