K-means इस तरह काम करता है: (1) K क्लस्टर केंद्रों को यादृच्छिक रूप से initialize करें, (2) प्रत्येक डेटा बिंदु को निकटतम केंद्र को आवंटित करें, (3) प्रत्येक केंद्र को उसके आवंटित बिंदुओं के माध्य पर ले जाएँ, (4) अभिसरण तक चरण 2–3 दोहराएँ। मुख्य चुनौती: K चुनना। "एल्बो विधि" (K बनाम loss प्लॉट करें और मोड़ खोजें) और silhouette scores सामान्य heuristics हैं, लेकिन सही क्लस्टर संख्या के लिए अक्सर डोमेन ज्ञान की आवश्यकता होती है।
DBSCAN मनमाने आकार के क्लस्टर खोजता है (K-means गोलाकार क्लस्टर मानता है) और स्वचालित रूप से outliers को शोर बिंदुओं के रूप में पहचानता है। Hierarchical clustering नेस्टेड क्लस्टरों का एक पेड़ बनाती है जिसे आप किसी भी स्तर पर काट सकते हैं। Gaussian Mixture Models (GMMs) क्लस्टरों को संभाव्यता वितरण के रूप में मॉडल करते हैं, जिससे सॉफ्ट असाइनमेंट (एक बिंदु आंशिक रूप से कई क्लस्टरों से संबंधित हो सकता है) संभव होता है। प्रत्येक विधि विभिन्न डेटा ज्यामिति और उपयोग मामलों के लिए ताकत रखती है।
Embeddings को क्लस्टरिंग के साथ जोड़ना टेक्स्ट विश्लेषण के लिए शक्तिशाली है। एक sentence embedding मॉडल का उपयोग करके दस्तावेज़ों के संग्रह को embed करें, फिर embeddings को क्लस्टर करें। प्रत्येक क्लस्टर एक अर्थपूर्ण समूह का प्रतिनिधित्व करता है — विषय, थीम, या श्रेणियाँ जो डेटा से उभरती हैं। इसका उपयोग होता है: समर्थन टिकटों को विषय के अनुसार व्यवस्थित करना, सर्वेक्षण प्रतिक्रियाओं में थीम खोजना, समान उत्पादों को समूहित करना, और topic modeling (LDA का एक आधुनिक विकल्प)। फिर प्रत्येक क्लस्टर किस बारे में है इसका सारांश देने के लिए LLM से पूछकर क्लस्टरों को लेबल किया जा सकता है।