Zubnet AIसीखेंWiki › Drift Detection
इन्फ्रास्ट्रक्चर

Drift Detection

इसे भी कहा जाता है: Data Drift, Model Drift, Concept Drift
समय के साथ data distribution या मॉडल व्यवहार में ऐसे परिवर्तनों की निगरानी करना जो प्रदर्शन को ख़राब कर सकते हैं। Data drift: इनपुट डेटा बदलता है (ग्राहक demographics shift होते हैं, नई उत्पाद श्रेणियाँ आती हैं)। Concept drift: इनपुट और सही आउटपुट के बीच का संबंध बदलता है (spam की परिभाषा विकसित होती है)। Model drift: मॉडल की भविष्यवाणियाँ धीरे-धीरे कम सटीक हो जाती हैं भले ही मॉडल स्वयं नहीं बदला।

यह क्यों मायने रखता है

मॉडल ऐतिहासिक डेटा पर प्रशिक्षित होते हैं, लेकिन दुनिया बदलती रहती है। 2024 में प्रशिक्षित fraud detection मॉडल 2025 के नए fraud patterns को चूक जाएगा। महामारी-पूर्व व्यवहार पर प्रशिक्षित recommendation system महामारी के बाद ख़राब सुझाव देगा। Drift detection इन गिरावटों को महँगा होने से पहले पकड़ता है — आपको सचेत करता है कि मॉडल को retraining या अपडेट की ज़रूरत है।

गहन अध्ययन

Data drift detection: वर्तमान inputs के सांख्यिकीय distribution की तुलना प्रशिक्षण डेटा distribution से करें। यदि features में महत्वपूर्ण shift होता है (KS test, PSI, या Jensen-Shannon divergence जैसे tests का उपयोग करके), तो मॉडल अपने प्रशिक्षण distribution के बाहर काम कर रहा हो सकता है। उदाहरण: 25–55 वर्ष आयु के आवेदकों पर प्रशिक्षित credit scoring मॉडल को 18 वर्ष के बच्चों से आवेदन मिलने लगते हैं — एक ऐसी आबादी जिसे उसने कभी नहीं देखा।

Concept Drift

Concept drift का पता लगाना कठिन है क्योंकि inputs समान दिखते हैं लेकिन सही outputs बदल जाते हैं। COVID के दौरान, "सामान्य" खरीद पैटर्न नाटकीय रूप से बदल गए — 100 toilet paper rolls ख़रीदना "संभावित fraud" से "मंगलवार" हो गया। मॉडल की भविष्यवाणियाँ इसलिए ग़लत नहीं हुईं कि मॉडल ख़राब हो गया, बल्कि इसलिए कि वास्तविकता बदल गई। Concept drift का पता लगाने के लिए भविष्यवाणियों की तुलना ground truth से करनी होती है, जो अक्सर देरी से आता है।

LLMs के लिए

LLM drift अलग तरह से प्रकट होता है: उपयोगकर्ता query patterns बदलते हैं (नए विषय उभरते हैं), provider model updates व्यवहार बदलते हैं (API model versions चुपचाप बदलते हैं), और दुनिया बदलती है (पुराना training data)। निगरानी रणनीतियों में शामिल हैं: समय के साथ output quality scores को track करना, queries के topic distribution में shifts का पता लगाना, उपयोगकर्ता-रिपोर्टेड समस्याओं में वृद्धि पर alert करना, और provider-side परिवर्तनों का पता लगाने के लिए एक निश्चित benchmark पर समय-समय पर पुनः मूल्यांकन करना।

संबंधित अवधारणाएँ

← सभी शब्द
← Distributed Training Dropout →
ESC