一个欺诈检测模型在一周内从94%的召回率下降到75%,但没有触发任何警报,因为月度指标仍在容忍范围内。当研究人员将经典的Ebbinghaus遗忘曲线应用到555,000笔生产环境欺诈交易时,他们得到R² = -0.31——比预测均值还要糟糕。这种数学失效暴露了整个MLOps行业在模型重训练方法上的根本缺陷。

每个主要的MLOps平台都围绕着从19世纪记忆研究中借鉴来的平滑、可预测的衰减构建重训练计划。假设是:模型像人类一样逐渐遗忘,遵循指数曲线,性能以与剩余准确度成正比的速率持续下降。但生产系统的行为不像心理学实验。它们面临突然的分布变化、对抗性攻击和市场变化,这些会创造突然的性能冲击而不是缓慢的下滑。

更广泛的MLOps叙述heavily关注监控和生命周期管理,67%的AI模型从未投入生产,91%的模型随时间经历性能下降。但这些统计数据掩盖了真正的问题:我们用为平滑衰减设计的解决方案来治疗episodic失败的症状。当R²降到0.4以下时,定期重训练变得actively适得其反——你完全在为错误的失败模式进行优化。

对于运行生产模型的团队,这项研究建议一个实用的诊断方法:检查你的周性能指标是否符合指数衰减。如果R² < 0.4,放弃基于日历的重训练,改为实施冲击检测。数学告诉你,你的模型不是在慢慢遗忘——而是被你的计划无法预测的变化所blindsided。