数据漂移检测:比较当前输入的统计分布与训练数据分布。如果特征发生显著偏移(使用KS检验、PSI或Jensen-Shannon散度等测试),模型可能在其训练分布之外运行。例如:一个在25-55岁申请人上训练的信用评分模型开始收到18岁申请人的申请——一个它从未见过的人群。
概念漂移更难检测,因为输入看起来相同但正确输出发生了变化。在COVID期间,“正常”的购买模式发生了剧烈变化——购买100卷卫生纸从“可能是欺诈”变成了“周二日常”。模型的预测变得错误不是因为模型退化了,而是因为现实改变了。检测概念漂移需要将预测与真实标签进行比较,而真实标签通常有延迟。
LLM的漂移表现不同:用户查询模式变化(新话题出现)、提供者模型更新改变行为(API模型版本无声更改),以及世界变化(过时的训练数据)。监控策略包括:跟踪输出质量分数随时间的变化、检测查询主题分布的偏移、在用户报告问题增加时发出警报,以及定期在固定基准上重新评估以检测提供者端的变化。