Dataset：定義與含義 — AI 維基

用於訓練、評估或測試機器學習模型的結構化資料集合。資料集可以是標註的（每個範例都有已知的正確答案）或未標註的（沒有註解的原始資料）。資料集的品質、大小、多樣性和代表性從根本上決定了模型能學到什麼。

為什麼重要

垃圾進，垃圾出。在糟糕的資料集上訓練的最精妙架構也只會產生糟糕的結果。反之，在優質資料上訓練的簡單模型往往能勝過在雜訊上訓練的複雜模型。資料集整理可說是 AI 開發中影響最大但最不受矚目的部分。

深度解析

資料集有多種形式：用於語言模型的文本語料庫、用於分類器的標註影像、用於微調的問答對、用於對齊的偏好配對，以及用於評估的基準資料集。訓練集（模型學習的依據）、驗證集（引導超參數調整）和測試集（衡量最終效能）之間的區別是基礎——在訓練資料上評估毫無意義，因為模型已經記住了它。

資料規模化的故事

大型語言模型預訓練資料集已從數百萬 token（早期 GPT）增長到數兆（現代模型）。Common Crawl、維基百科、書籍、程式碼庫、科學論文和精選網路文本構成典型的混合。但更多資料並不總是更好——Chinchilla 縮放定律表明，資料品質和數量必須與模型大小一起成長。去重、過濾有毒或低品質內容以及平衡領域都是關鍵步驟。

偏見存在於資料中

每個資料集都帶有其來源的偏見。主要在英語網路文本上訓練的模型在其他語言上表現較差。從網際網路抓取的資料集會繼承社會的偏見。這不是靠架構能解決的問題——它需要仔細的資料整理、審計和訓練後的緩解措施。最具影響力的 AI 倫理工作往往發生在資料集層面。

Dataset

為什麼重要

深度解析

資料規模化的故事

偏見存在於資料中

相關概念