Zubnet AI学习Wiki › 自监督学习
训练

自监督学习

别名:SSL

一种模型从未标注数据中自行生成监督信号的训练方法。隐藏输入的一部分,训练模型预测被隐藏的部分。对于LLM:遮蔽下一个token并预测它。对于视觉模型:遮蔽图像块。

为什么重要

自监督学习是使现代AI成为可能的突破。它解锁了在整个互联网上进行训练的能力,而非依赖于昂贵的人工标注数据集。

深度解析

两种主要方法:因果语言模型(预测下一个token → GPT/Claude/Llama)和掩码语言模型(预测被遮蔽的token → BERT)。对比学习(CLIP、SimCLR)是另一种形式,用于视觉和嵌入领域。

相关概念

← 所有术语
← 自然语言处理 蒸馏 →