資料集有多種形式:用於語言模型的文本語料庫、用於分類器的標註影像、用於微調的問答對、用於對齊的偏好配對,以及用於評估的基準資料集。訓練集(模型學習的依據)、驗證集(引導超參數調整)和測試集(衡量最終效能)之間的區別是基礎——在訓練資料上評估毫無意義,因為模型已經記住了它。
大型語言模型預訓練資料集已從數百萬 token(早期 GPT)增長到數兆(現代模型)。Common Crawl、維基百科、書籍、程式碼庫、科學論文和精選網路文本構成典型的混合。但更多資料並不總是更好——Chinchilla 縮放定律表明,資料品質和數量必須與模型大小一起成長。去重、過濾有毒或低品質內容以及平衡領域都是關鍵步驟。
每個資料集都帶有其來源的偏見。主要在英語網路文本上訓練的模型在其他語言上表現較差。從網際網路抓取的資料集會繼承社會的偏見。這不是靠架構能解決的問題——它需要仔細的資料整理、審計和訓練後的緩解措施。最具影響力的 AI 倫理工作往往發生在資料集層面。