Détection de dérive : Définition et signification — Wiki IA

Surveiller les changements dans la distribution des données ou le comportement du modèle au fil du temps qui pourraient dégrader la performance. Dérive de données : les données d'entrée changent (la démographie des clients évolue, de nouvelles catégories de produits apparaissent). Dérive de concept : la relation entre les entrées et les sorties correctes change (ce qui constitue du spam évolue). Dérive de modèle : les prédictions du modèle deviennent graduellement moins précises même si le modèle lui-même n'a pas changé.

Pourquoi c'est important

Les modèles sont entraînés sur des données historiques, mais le monde continue de changer. Un modèle de détection de fraude entraîné en 2024 manquera les nouveaux patterns de fraude de 2025. Un système de recommandation entraîné sur des comportements pré-pandémie fera de mauvaises suggestions post-pandémie. La détection de dérive attrape ces dégradations avant qu'elles deviennent coûteuses — t'alertant que le modèle a besoin d'être réentraîné ou mis à jour.

En profondeur

Détection de dérive de données : comparer la distribution statistique des entrées actuelles à la distribution des données d'entraînement. Si les caractéristiques dérivent significativement (en utilisant des tests comme le test KS, PSI, ou la divergence de Jensen-Shannon), le modèle opère peut-être en dehors de sa distribution d'entraînement. Exemple : un modèle de scoring de crédit entraîné sur des candidats de 25 à 55 ans commence à recevoir des candidatures de jeunes de 18 ans — une population qu'il n'a jamais vue.

Dérive de concept

La dérive de concept est plus difficile à détecter parce que les entrées ont l'air pareilles mais les sorties correctes changent. Pendant le COVID, les patterns d'achat « normaux » ont changé drastiquement — acheter 100 rouleaux de papier toilette est passé de « fraude probable » à « un mardi normal ». Les prédictions du modèle sont devenues fausses non pas parce que le modèle s'est dégradé, mais parce que la réalité a changé. Détecter la dérive de concept nécessite de comparer les prédictions à la vérité terrain, qui arrive souvent avec un délai.

Pour les LLM

La dérive des LLM se manifeste différemment : les patterns de requêtes utilisateur évoluent (de nouveaux sujets émergent), les mises à jour du modèle par le fournisseur changent le comportement (les versions de modèle API changent silencieusement), et le monde change (données d'entraînement obsolètes). Les stratégies de surveillance incluent : suivre les scores de qualité des sorties dans le temps, détecter les changements dans la distribution des sujets des requêtes, alerter sur les augmentations de problèmes rapportés par les utilisateurs, et réévaluer périodiquement sur un benchmark fixe pour détecter les changements côté fournisseur.