一种使用标注样本进行训练的方法——输入-输出配对,其中正确答案已经提供。模型调整其参数以最小化预测值与已知正确答案之间的差异。
监督学习是最直观的机器学习形式,也是大多数实际应用背后的主力:垃圾邮件过滤、医学影像分析、欺诈检测,以及LLM的微调阶段。
核心循环:预测 → 与标签对比 → 计算损失 → 调整参数。LLM的预训练在技术上属于自监督学习,但微调和RLHF使用的是监督信号。关键的瓶颈在于需要标注数据,而标注数据是昂贵的。