Aprendizaje auto-supervisado: Definición y significado — Wiki de IA

Un enfoque de entrenamiento donde el modelo genera su propia señal de supervisión a partir de datos sin etiquetar. Oculta parte de la entrada y entrena para predecir la parte oculta. Para LLMs: enmascara el siguiente token y lo predice. Para visión: enmascara parches de la imagen.

Por qué importa

El aprendizaje auto-supervisado es el avance que hizo posible la IA moderna. Desbloqueó el entrenamiento con todo internet en lugar de depender de conjuntos de datos etiquetados a mano, que son caros y limitados.

En profundidad

Dos enfoques dominan: el modelado de lenguaje causal (predecir el siguiente token → GPT/Claude/Llama) y el modelado de lenguaje enmascarado (predecir tokens enmascarados → BERT). El aprendizaje contrastivo (CLIP, SimCLR) es otra forma usada en visión y embeddings.

Por qué fue revolucionario

Antes del aprendizaje auto-supervisado, el machine learning estaba limitado por la cantidad de datos que humanos podían etiquetar manualmente. ImageNet, con sus 14 millones de imágenes etiquetadas, tardó años en construirse. El auto-supervisado eliminó esa barrera: todo texto en internet se convierte en datos de entrenamiento, porque la tarea es simplemente predecir la siguiente palabra. Esto es lo que permitió entrenar modelos con billones de tokens.

La elegancia del pretext task

La genialidad está en diseñar la "tarea pretexto" — la tarea artificial que fuerza al modelo a aprender representaciones útiles. Para lenguaje, predecir el siguiente token obliga al modelo a entender gramática, hechos, razonamiento y hasta algo de sentido común. Para visión, reconstruir parches enmascarados obliga a entender estructura espacial, textura y semántica. La tarea parece trivial, pero las representaciones aprendidas son profundas.

Aprendizaje auto-supervisado

Por qué importa

En profundidad

Por qué fue revolucionario

La elegancia del pretext task

Conceptos relacionados