Une approche d'entraînement où le modèle génère son propre signal de supervision à partir de données non étiquetées. Cache une partie de l'entrée, entraîne le modèle à prédire la partie cachée. Pour les LLM : masquer le prochain token et le prédire. Pour la vision : masquer des patchs d'image.
Pourquoi c'est important
L'apprentissage auto-supervisé est la percée qui a rendu l'IA moderne possible. Il a permis l'entraînement sur l'ensemble d'internet au lieu de coûteux datasets étiquetés à la main.
En profondeur
Deux approches dominantes : LM causal (prédire le prochain token → GPT/Claude/Llama) et LM masqué (prédire les tokens masqués → BERT). L'apprentissage contrastif (CLIP, SimCLR) est une autre forme utilisée en vision et pour les embeddings.