Abrange clusterização (K-means), autoencoders, redução de dimensionalidade (PCA, t-SNE, UMAP). O pré-treinamento de LLMs é chamado de “auto-supervisionado” — o sinal de treinamento vem dos próprios dados (prever o próximo token).
A clusterização agrupa dados similares sem rótulos predefinidos. K-means particiona dados em K grupos baseado em distância. DBSCAN encontra clusters de forma arbitrária e identifica outliers. Essas técnicas são fundamentais para segmentação de clientes, agrupamento de documentos e detecção de anomalias em larga escala.
Técnicas como PCA, t-SNE e UMAP comprimem dados de alta dimensão para espaços visualizáveis mantendo estrutura significativa. São indispensáveis para explorar espaços de embeddings, visualizar clusters de tokens e entender o que modelos aprenderam internamente.