Détection de dérive de données : comparer la distribution statistique des entrées actuelles à la distribution des données d'entraînement. Si les caractéristiques dérivent significativement (en utilisant des tests comme le test KS, PSI, ou la divergence de Jensen-Shannon), le modèle opère peut-être en dehors de sa distribution d'entraînement. Exemple : un modèle de scoring de crédit entraîné sur des candidats de 25 à 55 ans commence à recevoir des candidatures de jeunes de 18 ans — une population qu'il n'a jamais vue.
La dérive de concept est plus difficile à détecter parce que les entrées ont l'air pareilles mais les sorties correctes changent. Pendant le COVID, les patterns d'achat « normaux » ont changé drastiquement — acheter 100 rouleaux de papier toilette est passé de « fraude probable » à « un mardi normal ». Les prédictions du modèle sont devenues fausses non pas parce que le modèle s'est dégradé, mais parce que la réalité a changé. Détecter la dérive de concept nécessite de comparer les prédictions à la vérité terrain, qui arrive souvent avec un délai.
La dérive des LLM se manifeste différemment : les patterns de requêtes utilisateur évoluent (de nouveaux sujets émergent), les mises à jour du modèle par le fournisseur changent le comportement (les versions de modèle API changent silencieusement), et le monde change (données d'entraînement obsolètes). Les stratégies de surveillance incluent : suivre les scores de qualité des sorties dans le temps, détecter les changements dans la distribution des sujets des requêtes, alerter sur les augmentations de problèmes rapportés par les utilisateurs, et réévaluer périodiquement sur un benchmark fixe pour détecter les changements côté fournisseur.