生产环境ML模型不会衰减——它们会遭受冲击

一个欺诈检测模型在一周内从94%的召回率下降到75%，但没有触发任何警报，因为月度指标仍在容忍范围内。当研究人员将经典的Ebbinghaus遗忘曲线应用到555,000笔生产环境欺诈交易时，他们得到R² = -0.31——比预测均值还要糟糕。这种数学失效暴露了整个MLOps行业在模型重训练方法上的根本缺陷。

每个主要的MLOps平台都围绕着从19世纪记忆研究中借鉴来的平滑、可预测的衰减构建重训练计划。假设是：模型像人类一样逐渐遗忘，遵循指数曲线，性能以与剩余准确度成正比的速率持续下降。但生产系统的行为不像心理学实验。它们面临突然的分布变化、对抗性攻击和市场变化，这些会创造突然的性能冲击而不是缓慢的下滑。

更广泛的MLOps叙述heavily关注监控和生命周期管理，67%的AI模型从未投入生产，91%的模型随时间经历性能下降。但这些统计数据掩盖了真正的问题：我们用为平滑衰减设计的解决方案来治疗episodic失败的症状。当R²降到0.4以下时，定期重训练变得actively适得其反——你完全在为错误的失败模式进行优化。

对于运行生产模型的团队，这项研究建议一个实用的诊断方法：检查你的周性能指标是否符合指数衰减。如果R² < 0.4，放弃基于日历的重训练，改为实施冲击检测。数学告诉你，你的模型不是在慢慢遗忘——而是被你的计划无法预测的变化所blindsided。

生产环境ML模型不会衰减——它们会遭受冲击

更多新闻