Zubnet AIAprenderWiki › Self-Supervised Aprendering
Training

Self-Supervised Aprendering

SSL
Uma abordagem de treinamento onde o modelo gera seu próprio sinal de supervisão a partir de dados não rotulados. O truque-chave: esconder parte da entrada e treinar o modelo para prever a parte escondida. Para LLMs, isso significa mascarar o próximo token e prevê-lo. Para modelos de visão (como DINO), significa mascarar patches de imagem. Você obtém os benefícios do aprendizado supervisionado sem o custo de rótulos humanos.

Por que importa

Aprendizado auto-supervisionado é o avanço que tornou a IA moderna possível. É como os LLMs aprendem linguagem a partir de texto bruto, como o BERT aprende a entender frases, e como modelos de visão aprendem a ver sem imagens rotuladas. Desbloqueou a capacidade de treinar na internet inteira em vez de ficar limitado a datasets rotulados à mão e caros.

Deep Dive

The two dominant self-supervised approaches in NLP are causal language modeling (predict the next token, used by GPT/Claude/Llama) and masked language modeling (mask random tokens and predict them, used by BERT). Causal modeling produces generative models — they can write text. Masked modeling produces understanding models — they excel at classification, search, and analysis but can't generate fluently.

Why It Works So Well

Predicting the next token sounds trivial, but to do it well, a model must learn grammar, facts, reasoning, style, and even some common sense. If the text says "The capital of France is," the model needs world knowledge to predict "Paris." If it says "She picked up the ball and threw it to," the model needs to understand pronouns, physics, and social context. The simple objective of next-token prediction creates pressure to learn deeply about language and the world it describes.

Contrastive Aprendering

In vision and embeddings, self-supervised learning often uses contrastive objectives: learn representations where similar items are close together and dissimilar items are far apart. CLIP (matching images to text descriptions), SimCLR (matching augmented views of the same image), and embedding models all use this approach. The supervision signal comes from the data structure itself — two crops of the same image should have similar representations, while crops of different images should not.

Conceitos relacionados

← Todos os termos
← Self-Attention Semantic Search →