Abarca técnicas como clustering (K-means, DBSCAN), autoencoders, y reducción de dimensionalidad (PCA, t-SNE, UMAP). Cada una encuentra un tipo diferente de estructura en los datos sin supervisión externa.
El preentrenamiento de los LLMs se denomina "auto-supervisado" — la señal de entrenamiento proviene de los propios datos (predecir el siguiente token). Es una zona gris entre supervisado y no supervisado: no hay etiquetas manuales, pero hay una señal de entrenamiento clara. Esta distinción es importante porque el auto-supervisado permitió entrenar con todo internet, no solo con conjuntos de datos etiquetados a mano.
La detección de anomalías es quizás la aplicación no supervisada más valiosa en producción: el modelo aprende qué es "normal" y señala lo que se desvía. Funciona para detección de fraude, monitoreo de servidores, control de calidad industrial y seguridad. No necesitas ejemplos de fraude para detectar fraude — solo necesitas suficientes ejemplos de comportamiento normal.