Clustering : Définition et signification — Wiki IA

Une tâche d'apprentissage non supervisé qui regroupe des points de données similaires sans étiquettes prédéfinies. Avec des données d'achat de clients, le clustering pourrait découvrir des segments de clientèle distincts (chasseurs de bonnes affaires, acheteurs de luxe, acheteurs occasionnels). K-means est l'algorithme le plus courant : choisir K clusters, assigner chaque point au centre de cluster le plus proche, et affiner itérativement les centres.

Pourquoi c'est important

Le clustering est la tâche d'apprentissage non supervisé la plus courante et apparaît partout : segmentation de clientèle, regroupement de documents, détection d'anomalies (valeurs aberrantes qui ne rentrent dans aucun cluster), compression d'images (regroupement de pixels similaires) et exploration de données (quels groupes naturels existent dans mes données ?). C'est souvent la première étape pour comprendre un nouveau jeu de données.

En profondeur

K-means fonctionne en : (1) initialisant aléatoirement K centres de clusters, (2) assignant chaque point de données au centre le plus proche, (3) déplaçant chaque centre vers la moyenne de ses points assignés, (4) répétant les étapes 2 et 3 jusqu'à convergence. Le principal défi : choisir K. La « méthode du coude » (tracer la perte vs. K et trouver l'inflexion) et les scores de silhouette sont des heuristiques courantes, mais le bon nombre de clusters nécessite souvent une connaissance du domaine.

Au-delà de K-Means

DBSCAN découvre des clusters de formes arbitraires (K-means suppose des clusters sphériques) et identifie automatiquement les valeurs aberrantes comme des points de bruit. Le clustering hiérarchique construit un arbre de clusters imbriqués qu'on peut couper à n'importe quel niveau. Les modèles de mélange gaussien (GMM) modélisent les clusters comme des distributions de probabilité, permettant des assignations souples (un point peut appartenir partiellement à plusieurs clusters). Chaque méthode a ses forces pour différentes géométries de données et cas d'usage.

Clustering avec embeddings

Combiner les embeddings avec le clustering est puissant pour l'analyse de texte. Encode une collection de documents avec un modèle d'embedding de phrases, puis fais le clustering des embeddings. Chaque cluster représente un groupe sémantique — des sujets, thèmes ou catégories qui émergent des données. C'est utilisé pour : organiser les tickets de support par sujet, découvrir les thèmes dans les réponses de sondages, regrouper des produits similaires, et la modélisation de sujets (une alternative moderne à LDA). Les clusters peuvent ensuite être étiquetés en demandant à un LLM de résumer de quoi parle chaque cluster.

Clustering

Pourquoi c'est important

En profondeur

Au-delà de K-Means

Clustering avec embeddings

Concepts connexes