क्लस्टरिंग (Clustering): परिभाषा और अर्थ — AI विकी

एक unsupervised learning कार्य जो समान डेटा बिंदुओं को पूर्वनिर्धारित लेबल के बिना एक साथ समूहित करता है। ग्राहक खरीद डेटा दिए जाने पर, क्लस्टरिंग अलग-अलग ग्राहक खंडों की खोज कर सकती है (सस्ता खोजने वाले, लक्ज़री खरीदार, कभी-कभार खरीदार)। K-means सबसे आम एल्गोरिथ्म है: K क्लस्टर चुनें, प्रत्येक बिंदु को निकटतम क्लस्टर केंद्र को आवंटित करें, और पुनरावर्ती रूप से केंद्रों को परिष्कृत करें।

यह क्यों मायने रखता है

क्लस्टरिंग सबसे आम unsupervised learning कार्य है और हर जगह दिखाई देता है: ग्राहक विभाजन, दस्तावेज़ समूहीकरण, विसंगति पहचान (ऐसे outliers जो किसी क्लस्टर में फिट नहीं होते), छवि संपीड़न (समान पिक्सेल समूहीकरण), और डेटा अन्वेषण (मेरे डेटा में कौन से प्राकृतिक समूह मौजूद हैं?)। यह अक्सर एक नए डेटासेट को समझने का पहला कदम होता है।

गहन अध्ययन

K-means इस तरह काम करता है: (1) K क्लस्टर केंद्रों को यादृच्छिक रूप से initialize करें, (2) प्रत्येक डेटा बिंदु को निकटतम केंद्र को आवंटित करें, (3) प्रत्येक केंद्र को उसके आवंटित बिंदुओं के माध्य पर ले जाएँ, (4) अभिसरण तक चरण 2–3 दोहराएँ। मुख्य चुनौती: K चुनना। "एल्बो विधि" (K बनाम loss प्लॉट करें और मोड़ खोजें) और silhouette scores सामान्य heuristics हैं, लेकिन सही क्लस्टर संख्या के लिए अक्सर डोमेन ज्ञान की आवश्यकता होती है।

K-Means से परे

DBSCAN मनमाने आकार के क्लस्टर खोजता है (K-means गोलाकार क्लस्टर मानता है) और स्वचालित रूप से outliers को शोर बिंदुओं के रूप में पहचानता है। Hierarchical clustering नेस्टेड क्लस्टरों का एक पेड़ बनाती है जिसे आप किसी भी स्तर पर काट सकते हैं। Gaussian Mixture Models (GMMs) क्लस्टरों को संभाव्यता वितरण के रूप में मॉडल करते हैं, जिससे सॉफ्ट असाइनमेंट (एक बिंदु आंशिक रूप से कई क्लस्टरों से संबंधित हो सकता है) संभव होता है। प्रत्येक विधि विभिन्न डेटा ज्यामिति और उपयोग मामलों के लिए ताकत रखती है।

Embeddings के साथ क्लस्टरिंग

Embeddings को क्लस्टरिंग के साथ जोड़ना टेक्स्ट विश्लेषण के लिए शक्तिशाली है। एक sentence embedding मॉडल का उपयोग करके दस्तावेज़ों के संग्रह को embed करें, फिर embeddings को क्लस्टर करें। प्रत्येक क्लस्टर एक अर्थपूर्ण समूह का प्रतिनिधित्व करता है — विषय, थीम, या श्रेणियाँ जो डेटा से उभरती हैं। इसका उपयोग होता है: समर्थन टिकटों को विषय के अनुसार व्यवस्थित करना, सर्वेक्षण प्रतिक्रियाओं में थीम खोजना, समान उत्पादों को समूहित करना, और topic modeling (LDA का एक आधुनिक विकल्प)। फिर प्रत्येक क्लस्टर किस बारे में है इसका सारांश देने के लिए LLM से पूछकर क्लस्टरों को लेबल किया जा सकता है।

क्लस्टरिंग (Clustering)

यह क्यों मायने रखता है

गहन अध्ययन

K-Means से परे

Embeddings के साथ क्लस्टरिंग

संबंधित अवधारणाएँ