Aprendizaje no supervisado: Definición y significado — Wiki de IA

Un enfoque de entrenamiento donde el modelo encuentra patrones en los datos sin que le digan qué buscar. Sin etiquetas, sin respuestas correctas — solo datos crudos y un modelo que descubre estructura. Clustering, reducción de dimensionalidad y detección de anomalías son tareas clásicas.

Por qué importa

La mayoría de los datos del mundo real no tienen etiquetas. El aprendizaje no supervisado encuentra patrones imposibles de descubrir manualmente. También es la base de los embeddings, que potencian la búsqueda semántica, los sistemas de recomendación y RAG.

En profundidad

Abarca técnicas como clustering (K-means, DBSCAN), autoencoders, y reducción de dimensionalidad (PCA, t-SNE, UMAP). Cada una encuentra un tipo diferente de estructura en los datos sin supervisión externa.

Relación con los LLMs

El preentrenamiento de los LLMs se denomina "auto-supervisado" — la señal de entrenamiento proviene de los propios datos (predecir el siguiente token). Es una zona gris entre supervisado y no supervisado: no hay etiquetas manuales, pero hay una señal de entrenamiento clara. Esta distinción es importante porque el auto-supervisado permitió entrenar con todo internet, no solo con conjuntos de datos etiquetados a mano.

Aplicaciones prácticas

La detección de anomalías es quizás la aplicación no supervisada más valiosa en producción: el modelo aprende qué es "normal" y señala lo que se desvía. Funciona para detección de fraude, monitoreo de servidores, control de calidad industrial y seguridad. No necesitas ejemplos de fraude para detectar fraude — solo necesitas suficientes ejemplos de comportamiento normal.

Aprendizaje no supervisado

Por qué importa

En profundidad

Relación con los LLMs

Aplicaciones prácticas

Conceptos relacionados