漂移偵測：定義與含義 — AI 維基

監控資料分佈或模型行為隨時間的變化，這些變化可能降低效能。資料漂移：輸入資料改變（客戶人口統計轉變、新產品類別出現）。概念漂移：輸入與正確輸出之間的關係改變（什麼構成垃圾郵件在演變）。模型漂移：即使模型本身沒有改變，其預測也逐漸變得不準確。

為什麼重要

模型在歷史資料上訓練，但世界持續變化。2024 年訓練的詐欺偵測模型會漏掉 2025 年的新詐欺模式。在疫情前行為上訓練的推薦系統在疫情後會給出糟糕的建議。漂移偵測在這些退化變得代價高昂之前就捕捉到——提醒你模型需要重新訓練或更新。

深度解析

資料漂移偵測：比較當前輸入的統計分佈與訓練資料分佈。如果特徵顯著偏移（使用 KS 檢定、PSI 或 Jensen-Shannon 散度等測試），模型可能正在其訓練分佈之外運作。例如：一個在 25-55 歲申請人上訓練的信用評分模型開始收到 18 歲青少年的申請——一個它從未見過的群體。

概念漂移

概念漂移更難偵測，因為輸入看起來相同，但正確的輸出改變了。在 COVID 期間，「正常」的購買模式發生了劇烈轉變——購買 100 卷衛生紙從「可能的詐欺」變成了「星期二的日常」。模型的預測變錯不是因為模型退化了，而是因為現實改變了。偵測概念漂移需要將預測與真實標籤進行比較，而真實標籤通常會延遲到達。

對於 LLM

LLM 漂移的表現方式不同：使用者查詢模式轉變（新話題出現）、提供商模型更新改變行為（API 模型版本悄悄改變）、以及世界改變（過時的訓練資料）。監控策略包括：追蹤輸出品質分數隨時間的變化、偵測查詢主題分佈的轉變、在使用者回報問題增加時發出警報，以及定期在固定基準上重新評估以偵測提供商端的變更。