一個詐騙偵測模型在一週內從94%的召回率下降到75%,但沒有觸發任何警報,因為月度指標仍在容忍範圍內。當研究人員將經典的Ebbinghaus遺忘曲線應用到555,000筆正式環境詐騙交易時,他們得到R² = -0.31——比預測平均值還要糟糕。這種數學失效暴露了整個MLOps產業在模型重新訓練方法上的根本缺陷。
每個主要的MLOps平台都圍繞著從19世紀記憶研究中借鑑來的平滑、可預測的衰減構建重新訓練時程。假設是:模型像人類一樣逐漸遺忘,遵循指數曲線,效能以與剩餘準確度成正比的速率持續下降。但正式系統的行為不像心理學實驗。它們面臨突然的分布變化、對抗性攻擊和市場變化,這些會創造突然的效能衝擊而不是緩慢的下滑。
更廣泛的MLOps敘述heavily關注監控和生命週期管理,67%的AI模型從未投入正式環境,91%的模型隨時間經歷效能下降。但這些統計數據掩蓋了真正的問題:我們用為平滑衰減設計的解決方案來治療episodic失敗的症狀。當R²降到0.4以下時,定期重新訓練變得actively適得其反——你完全在為錯誤的失敗模式進行最佳化。
對於運行正式環境模型的團隊,這項研究建議一個實用的診斷方法:檢查你的週效能指標是否符合指數衰減。如果R² < 0.4,放棄基於日曆的重新訓練,改為實施衝擊偵測。數學告訴你,你的模型不是在慢慢遺忘——而是被你的時程無法預測的變化所blindsided。
