Duas abordagens dominantes: LM causal (prever próximo token → GPT/Claude/Llama) e LM mascarado (prever tokens mascarados → BERT). Aprendizado contrastivo (CLIP, SimCLR) é outra forma usada em visão e embeddings.
Antes do aprendizado auto-supervisionado, modelos de linguagem eram limitados pelo volume de dados rotulados disponíveis. Auto-supervisão transformou cada frase na internet em um exemplo de treinamento: esconda uma palavra, preveja-a. Isso permitiu treinar em trilhões de tokens sem um único anotador humano, produzindo os modelos de fundação que conhecemos hoje.
A mesma ideia funciona para imagens (MAE — Masked Autoencoders), áudio (wav2vec) e vídeo. CLIP conecta texto e imagem treinando para alinhar pares correspondentes. Essa universalidade é o que torna a auto-supervisão tão fundamental — qualquer modalidade com estrutura pode fornecer seu próprio sinal de treinamento.