K-means funciona: (1) inicializando aleatoriamente K centros de cluster, (2) asignando cada punto de datos al centro más cercano, (3) moviendo cada centro a la media de sus puntos asignados, (4) repitiendo los pasos 2–3 hasta la convergencia. El principal desafío: elegir K. El "método del codo" (graficar la pérdida vs. K y encontrar la curva) y las puntuaciones de silueta son heurísticas comunes, pero el número correcto de clusters a menudo requiere conocimiento del dominio.
DBSCAN descubre clusters de formas arbitrarias (K-means asume clusters esféricos) e identifica automáticamente los valores atípicos como puntos de ruido. El clustering jerárquico construye un árbol de clusters anidados que puedes cortar a cualquier nivel. Los Modelos de Mezcla Gaussiana (GMMs) modelan clusters como distribuciones de probabilidad, permitiendo asignaciones suaves (un punto puede pertenecer parcialmente a múltiples clusters). Cada método tiene fortalezas para diferentes geometrías de datos y casos de uso.
Combinar embeddings con clustering es poderoso para el análisis de texto. Convierte una colección de documentos a embeddings usando un modelo de embeddings de oraciones, luego agrupa los embeddings. Cada cluster representa un grupo semántico — temas, tópicos o categorías que emergen de los datos. Esto se usa para: organizar tickets de soporte por tema, descubrir temas en respuestas de encuestas, agrupar productos similares y modelado de temas (una alternativa moderna a LDA). Los clusters pueden luego etiquetarse pidiendo a un LLM que resuma de qué trata cada cluster.