Zubnet AI學習Wiki › Dataset
基礎

Dataset

別名:訓練集、資料
用於訓練、評估或測試機器學習模型的結構化資料集合。資料集可以是標註的(每個範例都有已知的正確答案)或未標註的(沒有註解的原始資料)。資料集的品質、大小、多樣性和代表性從根本上決定了模型能學到什麼。

為什麼重要

垃圾進,垃圾出。在糟糕的資料集上訓練的最精妙架構也只會產生糟糕的結果。反之,在優質資料上訓練的簡單模型往往能勝過在雜訊上訓練的複雜模型。資料集整理可說是 AI 開發中影響最大但最不受矚目的部分。

深度解析

資料集有多種形式:用於語言模型的文本語料庫、用於分類器的標註影像、用於微調的問答對、用於對齊的偏好配對,以及用於評估的基準資料集。訓練集(模型學習的依據)、驗證集(引導超參數調整)和測試集(衡量最終效能)之間的區別是基礎——在訓練資料上評估毫無意義,因為模型已經記住了它。

資料規模化的故事

大型語言模型預訓練資料集已從數百萬 token(早期 GPT)增長到數兆(現代模型)。Common Crawl、維基百科、書籍、程式碼庫、科學論文和精選網路文本構成典型的混合。但更多資料並不總是更好——Chinchilla 縮放定律表明,資料品質和數量必須與模型大小一起成長。去重、過濾有毒或低品質內容以及平衡領域都是關鍵步驟。

偏見存在於資料中

每個資料集都帶有其來源的偏見。主要在英語網路文本上訓練的模型在其他語言上表現較差。從網際網路抓取的資料集會繼承社會的偏見。這不是靠架構能解決的問題——它需要仔細的資料整理、審計和訓練後的緩解措施。最具影響力的 AI 倫理工作往往發生在資料集層面。

相關概念

← 所有術語
← Data Augmentation Decart AI →
ESC