监督学习：定义与含义 — AI 维基

一种使用标注样本进行训练的方法——输入-输出配对，其中正确答案已经提供。模型调整其参数以最小化预测值与已知正确答案之间的差异。

为什么重要

监督学习是最直观的机器学习形式，也是大多数实际应用背后的主力：垃圾邮件过滤、医学影像分析、欺诈检测，以及LLM的微调阶段。

核心循环：预测 → 与标签对比 → 计算损失 → 调整参数。LLM的预训练在技术上属于自监督学习，但微调和RLHF使用的是监督信号。关键的瓶颈在于需要标注数据，而标注数据是昂贵的。