由AI模型生成的训练数据。正在成为训练流程中的标准做法。
真实的标注数据很昂贵。前沿模型可以在一夜之间生成数百万个样本。质量控制至关重要。
用途贯穿整个流程:预训练数据缺口补充、微调样本、对齐回复、评估数据。模型坍缩风险:错误会在多代生成中累积。关于知识产权继承的法律问题仍在探讨中。