一种模型从未标注数据中自行生成监督信号的训练方法。隐藏输入的一部分,训练模型预测被隐藏的部分。对于LLM:遮蔽下一个token并预测它。对于视觉模型:遮蔽图像块。
自监督学习是使现代AI成为可能的突破。它解锁了在整个互联网上进行训练的能力,而非依赖于昂贵的人工标注数据集。
两种主要方法:因果语言模型(预测下一个token → GPT/Claude/Llama)和掩码语言模型(预测被遮蔽的token → BERT)。对比学习(CLIP、SimCLR)是另一种形式,用于视觉和嵌入领域。