Zubnet AIAprenderWiki › Clusterização
Fundamentos

Clusterização

Também conhecido como: K-Means, DBSCAN, Análise de Clusters
Uma tarefa de aprendizado não-supervisionado que agrupa pontos de dados similares sem rótulos predefinidos. Dados de compras de clientes podem revelar segmentos distintos (caçadores de ofertas, compradores de luxo, compradores ocasionais). K-means é o algoritmo mais comum: escolha K clusters, atribua cada ponto ao centro de cluster mais próximo e refine iterativamente os centros.

Por que isso importa

Clusterização é a tarefa de aprendizado não-supervisionado mais comum e aparece em todo lugar: segmentação de clientes, agrupamento de documentos, detecção de anomalias (outliers que não se encaixam em nenhum cluster), compressão de imagens (agrupamento de pixels similares) e exploração de dados (que grupos naturais existem nos meus dados?). Frequentemente é o primeiro passo para entender um novo dataset.

Em profundidade

K-means funciona: (1) inicializando aleatoriamente K centros de cluster, (2) atribuindo cada ponto de dado ao centro mais próximo, (3) movendo cada centro para a média de seus pontos atribuídos, (4) repetindo passos 2–3 até convergência. O principal desafio: escolher K. O "método do cotovelo" (plotar loss vs. K e encontrar a curva) e scores de silhouette são heurísticas comuns, mas o número certo de clusters frequentemente requer conhecimento de domínio.

Além do K-Means

DBSCAN descobre clusters de formas arbitrárias (K-means assume clusters esféricos) e automaticamente identifica outliers como pontos de ruído. Clusterização hierárquica constrói uma árvore de clusters aninhados que você pode cortar em qualquer nível. Gaussian Mixture Models (GMMs) modelam clusters como distribuições de probabilidade, permitindo atribuições suaves (um ponto pode pertencer parcialmente a múltiplos clusters). Cada método tem pontos fortes para diferentes geometrias de dados e casos de uso.

Clusterização com Embeddings

Combinar embeddings com clusterização é poderoso para análise de texto. Incorpore uma coleção de documentos usando um modelo de embedding de sentenças, depois clusterize os embeddings. Cada cluster representa um grupo semântico — tópicos, temas ou categorias que emergem dos dados. Isso é usado para: organizar tickets de suporte por tópico, descobrir temas em respostas de pesquisa, agrupar produtos similares e modelagem de tópicos (uma alternativa moderna ao LDA). Os clusters podem então ser rotulados pedindo a um LLM para resumir do que cada cluster trata.

Conceitos relacionados

← Todos os termos
← CLIP CNN →