Zubnet AI学习Wiki › Dataset
基础

Dataset

别名:训练集、数据
用于训练、评估或测试机器学习模型的结构化数据集合。数据集可以是标注的(每个样本都有已知的正确答案)或未标注的(没有注释的原始数据)。数据集的质量、规模、多样性和代表性从根本上决定了模型能学到什么。

为什么重要

垃圾进,垃圾出。用糟糕的数据集训练的最精妙的架构也会产生糟糕的结果。相反,用优秀数据训练的简单模型往往优于用噪声训练的复杂模型。数据集整理可以说是AI开发中影响最大却最不起眼的环节。

深度解析

数据集有多种形式:用于语言模型的文本语料库、用于分类器的标注图像、用于微调的问答对、用于对齐的偏好对,以及用于评估的基准数据集。训练集(模型从中学习)、验证集(指导超参数调优)和测试集(衡量最终性能)之间的区别是基本的——在训练数据上评估毫无意义,因为模型已经记住了它。

数据规模的故事

LLM预训练数据集已从数百万token(早期GPT)增长到数万亿(现代模型)。Common Crawl、维基百科、书籍、代码仓库、科学论文和精选网页文本构成了典型的组合。但更多的数据并不总是更好的——Chinchilla缩放定律表明数据质量和数量必须与模型规模一起增长。去重、过滤有毒或低质量内容以及平衡领域分布都是关键步骤。

偏见存在于数据中

每个数据集都带有其来源的偏见。主要在英文网页文本上训练的模型在其他语言上的表现会更差。从互联网抓取的数据集继承了社会的偏见。这不是靠架构能解决的问题——它需要仔细的数据整理、审计和训练后的缓解措施。最具影响力的AI伦理工作往往发生在数据集层面。

相关概念

← 所有术语
← Data Augmentation Decart AI →