K-means funciona: (1) inicializando aleatoriamente K centros de cluster, (2) atribuindo cada ponto de dado ao centro mais próximo, (3) movendo cada centro para a média de seus pontos atribuídos, (4) repetindo passos 2–3 até convergência. O principal desafio: escolher K. O "método do cotovelo" (plotar loss vs. K e encontrar a curva) e scores de silhouette são heurísticas comuns, mas o número certo de clusters frequentemente requer conhecimento de domínio.
DBSCAN descobre clusters de formas arbitrárias (K-means assume clusters esféricos) e automaticamente identifica outliers como pontos de ruído. Clusterização hierárquica constrói uma árvore de clusters aninhados que você pode cortar em qualquer nível. Gaussian Mixture Models (GMMs) modelam clusters como distribuições de probabilidade, permitindo atribuições suaves (um ponto pode pertencer parcialmente a múltiplos clusters). Cada método tem pontos fortes para diferentes geometrias de dados e casos de uso.
Combinar embeddings com clusterização é poderoso para análise de texto. Incorpore uma coleção de documentos usando um modelo de embedding de sentenças, depois clusterize os embeddings. Cada cluster representa um grupo semântico — tópicos, temas ou categorias que emergem dos dados. Isso é usado para: organizar tickets de suporte por tópico, descobrir temas em respostas de pesquisa, agrupar produtos similares e modelagem de tópicos (uma alternativa moderna ao LDA). Os clusters podem então ser rotulados pedindo a um LLM para resumir do que cada cluster trata.