Une approche d'entraînement où le modèle trouve des patterns dans les données sans qu'on lui dise quoi chercher. Pas de labels, pas de bonnes réponses — juste des données brutes et un modèle qui découvre la structure. Le clustering, la réduction de dimensionnalité et la détection d'anomalies sont des tâches classiques.
Pourquoi c'est important
La plupart des données du monde réel ne sont pas étiquetées. L'apprentissage non supervisé trouve des patterns impossibles à découvrir manuellement. C'est aussi la base des embeddings, qui alimentent la recherche sémantique, les systèmes de recommandation et le RAG.
En profondeur
Englobe le clustering (K-means), les autoencoders, la réduction de dimensionnalité (PCA, t-SNE, UMAP). Le pré-entraînement des LLM est appelé « auto-supervisé » — le signal d'entraînement vient des données elles-mêmes (prédire le prochain token).