Dataset（数据集）：定义与含义 — AI 维基

用于训练、评估或测试机器学习模型的结构化数据集合。数据集可以是标注的（每个样本都有已知的正确答案）或未标注的（没有注释的原始数据）。数据集的质量、规模、多样性和代表性从根本上决定了模型能学到什么。

为什么重要

垃圾进，垃圾出。用糟糕的数据集训练的最精妙的架构也会产生糟糕的结果。相反，用优秀数据训练的简单模型往往优于用噪声训练的复杂模型。数据集整理可以说是AI开发中影响最大却最不起眼的环节。

深度解析

数据集有多种形式：用于语言模型的文本语料库、用于分类器的标注图像、用于微调的问答对、用于对齐的偏好对，以及用于评估的基准数据集。训练集（模型从中学习）、验证集（指导超参数调优）和测试集（衡量最终性能）之间的区别是基本的——在训练数据上评估毫无意义，因为模型已经记住了它。

数据规模的故事

LLM预训练数据集已从数百万token（早期GPT）增长到数万亿（现代模型）。Common Crawl、维基百科、书籍、代码仓库、科学论文和精选网页文本构成了典型的组合。但更多的数据并不总是更好的——Chinchilla缩放定律表明数据质量和数量必须与模型规模一起增长。去重、过滤有毒或低质量内容以及平衡领域分布都是关键步骤。

偏见存在于数据中

每个数据集都带有其来源的偏见。主要在英文网页文本上训练的模型在其他语言上的表现会更差。从互联网抓取的数据集继承了社会的偏见。这不是靠架构能解决的问题——它需要仔细的数据整理、审计和训练后的缓解措施。最具影响力的AI伦理工作往往发生在数据集层面。

Dataset

为什么重要

深度解析

数据规模的故事

偏见存在于数据中

相关概念