典型的劃分比例:80% 訓練、10% 驗證、10% 測試。對於大型資料集,驗證和測試的較小百分比就已足夠(即使是一百萬個樣本的 1% 也有 10,000 個——足以進行可靠的評估)。對於小型資料集,交叉驗證更為推薦(參見:交叉驗證)。關鍵規則:在開發過程中永遠不要使用測試集做任何決策。它只用於最終評估。如果你在開發期間偷看了測試集,你的效能估計就會有偏差。
在劃分資料時,確保每個劃分都有類別、領域和其他重要特徵的代表性分布。如果你的資料集 90% 是英文、10% 是法文,隨機劃分可能會把所有法文樣本都放進訓練集,使你無法評估法文效能。分層劃分確保每個劃分中的比例代表性。對於時間序列資料,使用時間劃分(在過去資料上訓練,在未來資料上驗證)而非隨機劃分。
對於 LLM 預訓練,驗證集是訓練語料庫的保留部分,用於在訓練期間計算困惑度。對於微調,它是微調資料集的保留部分。對於對齊(RLHF/DPO),驗證更加複雜:自動化指標(獎勵模型分數)加上在保留提示上的人工評估。驗證策略應該匹配模型的實際使用方式——如果使用者會問多樣化的問題,驗證集就應該是多樣化的。