Zubnet AI學習Wiki › Drift Detection
基礎設施

漂移偵測

別名:資料漂移、模型漂移、概念漂移
監控資料分佈或模型行為隨時間的變化,這些變化可能降低效能。資料漂移:輸入資料改變(客戶人口統計轉變、新產品類別出現)。概念漂移:輸入與正確輸出之間的關係改變(什麼構成垃圾郵件在演變)。模型漂移:即使模型本身沒有改變,其預測也逐漸變得不準確。

為什麼重要

模型在歷史資料上訓練,但世界持續變化。2024 年訓練的詐欺偵測模型會漏掉 2025 年的新詐欺模式。在疫情前行為上訓練的推薦系統在疫情後會給出糟糕的建議。漂移偵測在這些退化變得代價高昂之前就捕捉到——提醒你模型需要重新訓練或更新。

深度解析

資料漂移偵測:比較當前輸入的統計分佈與訓練資料分佈。如果特徵顯著偏移(使用 KS 檢定、PSI 或 Jensen-Shannon 散度等測試),模型可能正在其訓練分佈之外運作。例如:一個在 25-55 歲申請人上訓練的信用評分模型開始收到 18 歲青少年的申請——一個它從未見過的群體。

概念漂移

概念漂移更難偵測,因為輸入看起來相同,但正確的輸出改變了。在 COVID 期間,「正常」的購買模式發生了劇烈轉變——購買 100 卷衛生紙從「可能的詐欺」變成了「星期二的日常」。模型的預測變錯不是因為模型退化了,而是因為現實改變了。偵測概念漂移需要將預測與真實標籤進行比較,而真實標籤通常會延遲到達。

對於 LLM

LLM 漂移的表現方式不同:使用者查詢模式轉變(新話題出現)、提供商模型更新改變行為(API 模型版本悄悄改變)、以及世界改變(過時的訓練資料)。監控策略包括:追蹤輸出品質分數隨時間的變化、偵測查詢主題分佈的轉變、在使用者回報問題增加時發出警報,以及定期在固定基準上重新評估以偵測提供商端的變更。

← 所有術語
ESC