Dos enfoques dominan: el modelado de lenguaje causal (predecir el siguiente token → GPT/Claude/Llama) y el modelado de lenguaje enmascarado (predecir tokens enmascarados → BERT). El aprendizaje contrastivo (CLIP, SimCLR) es otra forma usada en visión y embeddings.
Antes del aprendizaje auto-supervisado, el machine learning estaba limitado por la cantidad de datos que humanos podían etiquetar manualmente. ImageNet, con sus 14 millones de imágenes etiquetadas, tardó años en construirse. El auto-supervisado eliminó esa barrera: todo texto en internet se convierte en datos de entrenamiento, porque la tarea es simplemente predecir la siguiente palabra. Esto es lo que permitió entrenar modelos con billones de tokens.
La genialidad está en diseñar la "tarea pretexto" — la tarea artificial que fuerza al modelo a aprender representaciones útiles. Para lenguaje, predecir el siguiente token obliga al modelo a entender gramática, hechos, razonamiento y hasta algo de sentido común. Para visión, reconstruir parches enmascarados obliga a entender estructura espacial, textura y semántica. La tarea parece trivial, pero las representaciones aprendidas son profundas.