K-means fonctionne en : (1) initialisant aléatoirement K centres de clusters, (2) assignant chaque point de données au centre le plus proche, (3) déplaçant chaque centre vers la moyenne de ses points assignés, (4) répétant les étapes 2 et 3 jusqu'à convergence. Le principal défi : choisir K. La « méthode du coude » (tracer la perte vs. K et trouver l'inflexion) et les scores de silhouette sont des heuristiques courantes, mais le bon nombre de clusters nécessite souvent une connaissance du domaine.
DBSCAN découvre des clusters de formes arbitraires (K-means suppose des clusters sphériques) et identifie automatiquement les valeurs aberrantes comme des points de bruit. Le clustering hiérarchique construit un arbre de clusters imbriqués qu'on peut couper à n'importe quel niveau. Les modèles de mélange gaussien (GMM) modélisent les clusters comme des distributions de probabilité, permettant des assignations souples (un point peut appartenir partiellement à plusieurs clusters). Chaque méthode a ses forces pour différentes géométries de données et cas d'usage.
Combiner les embeddings avec le clustering est puissant pour l'analyse de texte. Encode une collection de documents avec un modèle d'embedding de phrases, puis fais le clustering des embeddings. Chaque cluster représente un groupe sémantique — des sujets, thèmes ou catégories qui émergent des données. C'est utilisé pour : organiser les tickets de support par sujet, découvrir les thèmes dans les réponses de sondages, regrouper des produits similaires, et la modélisation de sujets (une alternative moderne à LDA). Les clusters peuvent ensuite être étiquetés en demandant à un LLM de résumer de quoi parle chaque cluster.