标注工作流通常包括:(1)创建清晰的标注指南(什么算“正面情感”?边界框中“汽车”的边界在哪里?),(2)根据指南培训标注者,(3)每个样本由多个标注者标注(用于质量控制),(4)衡量标注者间一致性(标注者是否在标签上达成一致?),(5)解决分歧(通过裁定或多数投票)。低一致性通常表明指南模糊或数据本身确实模糊。
对于LLM对齐,标注意味着比较模型回复:“对于这个提示,回复A还是回复B更好?”这种偏好标注特别具有挑战性,因为“更好”是主观的、依赖上下文的、且因文化而异。标注者的人口统计学特征、专业知识和指令都会影响最终的偏好数据,进而塑造模型行为。这就是为什么对齐常被描述为编码了撰写标注指南的人的价值观。
AI模型越来越多地协助标注:预标注数据然后由人类纠正(比从头标注更快)、生成合成标注数据、或作为额外标注者与人类一起工作。这创造了一个有趣的反馈循环:AI帮助标注训练更好的AI的数据。风险在于AI辅助标注会继承辅助模型的偏差,因此人类监督仍然至关重要。