一种在没有被告知要寻找什么的情况下,从数据中发现模式的训练方法。没有标签,没有正确答案——只有原始数据和一个发现其结构的模型。聚类、降维和异常检测是经典任务。
现实世界中的大部分数据都是未标注的。无监督学习能发现人工无法发现的模式。它也是嵌入(embedding)的基础,而嵌入驱动着语义搜索、推荐系统和RAG。
涵盖聚类(K-means)、自编码器、降维(PCA、t-SNE、UMAP)等方法。LLM的预训练被称为"自监督学习"——训练信号来自数据本身(预测下一个token)。