Zubnet AIAprenderWiki › Clustering
Fundamentos

Clustering

También conocido como: K-Means, DBSCAN, Análisis de clusters
Una tarea de aprendizaje no supervisado que agrupa puntos de datos similares sin etiquetas predefinidas. Dados datos de compras de clientes, el clustering podría descubrir segmentos distintos de clientes (cazadores de ofertas, compradores de lujo, compradores ocasionales). K-means es el algoritmo más común: elige K clusters, asigna cada punto al centro de cluster más cercano y refina iterativamente los centros.

Por qué importa

El clustering es la tarea de aprendizaje no supervisado más común y aparece en todas partes: segmentación de clientes, agrupación de documentos, detección de anomalías (valores atípicos que no encajan en ningún cluster), compresión de imágenes (agrupar píxeles similares) y exploración de datos (¿qué grupos naturales existen en mis datos?). A menudo es el primer paso para entender un nuevo dataset.

En profundidad

K-means funciona: (1) inicializando aleatoriamente K centros de cluster, (2) asignando cada punto de datos al centro más cercano, (3) moviendo cada centro a la media de sus puntos asignados, (4) repitiendo los pasos 2–3 hasta la convergencia. El principal desafío: elegir K. El "método del codo" (graficar la pérdida vs. K y encontrar la curva) y las puntuaciones de silueta son heurísticas comunes, pero el número correcto de clusters a menudo requiere conocimiento del dominio.

Más allá de K-Means

DBSCAN descubre clusters de formas arbitrarias (K-means asume clusters esféricos) e identifica automáticamente los valores atípicos como puntos de ruido. El clustering jerárquico construye un árbol de clusters anidados que puedes cortar a cualquier nivel. Los Modelos de Mezcla Gaussiana (GMMs) modelan clusters como distribuciones de probabilidad, permitiendo asignaciones suaves (un punto puede pertenecer parcialmente a múltiples clusters). Cada método tiene fortalezas para diferentes geometrías de datos y casos de uso.

Clustering con embeddings

Combinar embeddings con clustering es poderoso para el análisis de texto. Convierte una colección de documentos a embeddings usando un modelo de embeddings de oraciones, luego agrupa los embeddings. Cada cluster representa un grupo semántico — temas, tópicos o categorías que emergen de los datos. Esto se usa para: organizar tickets de soporte por tema, descubrir temas en respuestas de encuestas, agrupar productos similares y modelado de temas (una alternativa moderna a LDA). Los clusters pueden luego etiquetarse pidiendo a un LLM que resuma de qué trata cada cluster.

Conceptos relacionados

ESC