一種使用標記範例進行訓練的方法 — 即提供正確答案的輸入-輸出配對。模型調整其參數,以最小化其預測與已知正確答案之間的差異。
核心循環:預測 → 與標籤比較 → 計算損失 → 調整參數。LLM 的預訓練在技術上是自監督式的,但微調和 RLHF 使用的是監督式訊號。關鍵限制在於需要標記資料,而這是昂貴的。