数据集有多种形式:用于语言模型的文本语料库、用于分类器的标注图像、用于微调的问答对、用于对齐的偏好对,以及用于评估的基准数据集。训练集(模型从中学习)、验证集(指导超参数调优)和测试集(衡量最终性能)之间的区别是基本的——在训练数据上评估毫无意义,因为模型已经记住了它。
LLM预训练数据集已从数百万token(早期GPT)增长到数万亿(现代模型)。Common Crawl、维基百科、书籍、代码仓库、科学论文和精选网页文本构成了典型的组合。但更多的数据并不总是更好的——Chinchilla缩放定律表明数据质量和数量必须与模型规模一起增长。去重、过滤有毒或低质量内容以及平衡领域分布都是关键步骤。
每个数据集都带有其来源的偏见。主要在英文网页文本上训练的模型在其他语言上的表现会更差。从互联网抓取的数据集继承了社会的偏见。这不是靠架构能解决的问题——它需要仔细的数据整理、审计和训练后的缓解措施。最具影响力的AI伦理工作往往发生在数据集层面。