Zubnet AI学习Wiki › Drift Detection
基础设施

Drift Detection

别名:数据漂移、模型漂移、概念漂移
监控数据分布或模型行为随时间的变化,这些变化可能降低性能。数据漂移:输入数据发生变化(客户人群特征变化、出现新产品类别)。概念漂移:输入与正确输出之间的关系发生变化(什么构成垃圾邮件在演变)。模型漂移:即使模型本身没有改变,其预测也逐渐变得不准确。

为什么重要

模型是在历史数据上训练的,但世界在不断变化。2024年训练的欺诈检测模型会漏掉2025年的新欺诈模式。在疫情前行为上训练的推荐系统在疫情后会给出糟糕的建议。漂移检测在这些退化变得代价高昂之前捕获它们——提醒你模型需要重新训练或更新。

深度解析

数据漂移检测:比较当前输入的统计分布与训练数据分布。如果特征发生显著偏移(使用KS检验、PSI或Jensen-Shannon散度等测试),模型可能在其训练分布之外运行。例如:一个在25-55岁申请人上训练的信用评分模型开始收到18岁申请人的申请——一个它从未见过的人群。

概念漂移

概念漂移更难检测,因为输入看起来相同但正确输出发生了变化。在COVID期间,“正常”的购买模式发生了剧烈变化——购买100卷卫生纸从“可能是欺诈”变成了“周二日常”。模型的预测变得错误不是因为模型退化了,而是因为现实改变了。检测概念漂移需要将预测与真实标签进行比较,而真实标签通常有延迟。

对于LLM

LLM的漂移表现不同:用户查询模式变化(新话题出现)、提供者模型更新改变行为(API模型版本无声更改),以及世界变化(过时的训练数据)。监控策略包括:跟踪输出质量分数随时间的变化、检测查询主题分布的偏移、在用户报告问题增加时发出警报,以及定期在固定基准上重新评估以检测提供者端的变化。

相关概念

← 所有术语
ESC