自监督学习：定义与含义 — AI 维基

一种模型从未标注数据中自行生成监督信号的训练方法。隐藏输入的一部分，训练模型预测被隐藏的部分。对于LLM：遮蔽下一个token并预测它。对于视觉模型：遮蔽图像块。

为什么重要

自监督学习是使现代AI成为可能的突破。它解锁了在整个互联网上进行训练的能力，而非依赖于昂贵的人工标注数据集。

两种主要方法：因果语言模型（预测下一个token → GPT/Claude/Llama）和掩码语言模型（预测被遮蔽的token → BERT）。对比学习（CLIP、SimCLR）是另一种形式，用于视觉和嵌入领域。