Validation Set（驗證集）：定義與含義 — AI 維基

從訓練中保留的資料子集，用於在開發過程中評估模型效能和調整超參數。三向劃分：訓練集訓練模型，驗證集引導關於模型的決策（學習率、架構、何時停止），測試集提供最終的、無偏的效能估計。驗證集是你在開發過程中的鏡子。

為什麼重要

沒有驗證集，你就是在盲飛。訓練損失告訴你模型對訓練資料的擬合程度，但不能告訴你它的泛化能力。驗證集回答了真正重要的問題：「這個模型在它沒見過的資料上表現如何？」模型開發過程中的每個決策——超參數、架構選擇、訓練時長——都應該在驗證集上評估。

深度解析

典型的劃分比例：80% 訓練、10% 驗證、10% 測試。對於大型資料集，驗證和測試的較小百分比就已足夠（即使是一百萬個樣本的 1% 也有 10,000 個——足以進行可靠的評估）。對於小型資料集，交叉驗證更為推薦（參見：交叉驗證）。關鍵規則：在開發過程中永遠不要使用測試集做任何決策。它只用於最終評估。如果你在開發期間偷看了測試集，你的效能估計就會有偏差。

分層抽樣

在劃分資料時，確保每個劃分都有類別、領域和其他重要特徵的代表性分布。如果你的資料集 90% 是英文、10% 是法文，隨機劃分可能會把所有法文樣本都放進訓練集，使你無法評估法文效能。分層劃分確保每個劃分中的比例代表性。對於時間序列資料，使用時間劃分（在過去資料上訓練，在未來資料上驗證）而非隨機劃分。

LLM 開發中的驗證

對於 LLM 預訓練，驗證集是訓練語料庫的保留部分，用於在訓練期間計算困惑度。對於微調，它是微調資料集的保留部分。對於對齊（RLHF/DPO），驗證更加複雜：自動化指標（獎勵模型分數）加上在保留提示上的人工評估。驗證策略應該匹配模型的實際使用方式——如果使用者會問多樣化的問題，驗證集就應該是多樣化的。

Validation Set

為什麼重要

深度解析

分層抽樣

LLM 開發中的驗證

相關概念