模型坍缩是 AI 生成内容时代的定时炸弹。随着互联网充斥着 AI 生成的文本(估计占新网络内容的 10–50%),未来在网页抓取数据上训练的模型将不可避免地吸收 AI 输出。如果不妥善管理,模型质量可能会停滞或退化。这就是为什么数据策划和来源追踪正在成为关键基础设施。
机制:在真实数据上训练的模型不完美地捕获分布——它高估了某些模式,忽略了其他模式。当第二个模型在第一个模型的输出上训练时,它捕获了第一个模型不完美的分布,放大了这些错误。到第 5 代或第 10 代时,分布已坍缩为原始分布的一个狭窄、扭曲的版本。Shumailov 等人(2023年)在多种模型类型上进行了实证证明。
实际问题:预训练数据集通常从网络爬取,而网络中 AI 生成内容越来越多。如果训练语料库中 20% 是 AI 生成的,且该 AI 内容具有与正在训练的模型相同的统计偏差,这些偏差就会被强化。结果不是灾难性失败,而是逐渐同质化——模型越来越像彼此,越来越不像人类表达的多样性。
解决方案包括:从训练数据中检测和过滤 AI 生成内容(在大规模下很困难)、将 AI 生成数据与经过验证的人类数据混合(维持"人类数据底线")、为 AI 输出添加水印以便过滤,以及维护策划过的无 AI 参考数据集。一些研究人员认为,如果数据得到适当多样化和质量控制,模型坍缩被夸大了,但这种风险受到足够重视,以至于主要实验室都在投资数据来源追踪。