指令微調：定義與含義 — AI 維基

在一組（指令，回應）配對的資料集上微調預訓練語言模型，教它遵循指令。一個只能預測文字的基礎模型變成一個能回答問題、遵循指示並表現得像助手的模型。這就是將 GPT 變成 ChatGPT，或將基礎 Llama 變成 Llama-Chat 的步驟。

為什麼重要

指令微調是原始語言模型（只能完成文字）和有用助手（能遵循指令）之間的橋樑。沒有它，即使是最強大的基礎模型也只會生成聽起來合理的文字，而不是真正按你的要求去做。這可以說是最重要的後訓練步驟。

深度解析

過程：收集數千到數百萬個涵蓋各種任務的（指令，理想回應）配對——問答、摘要、程式設計、創意寫作、數學、對話。使用標準監督學習在這些配對上微調基礎模型（最小化在給定指令的情況下回應 token 的損失）。模型學習到元模式：「當收到指令時，產生有幫助的回應。」

SFT vs. RLHF vs. DPO

指令微調（監督微調 / SFT）通常是第一個後訓練步驟，然後是透過 RLHF 或 DPO 進行的對齊。SFT 教模型格式和基本的有用性。RLHF/DPO 然後精煉行為——使回應更有幫助、更少有害、更好地校準。一些方法（如 ORPO）將 SFT 和偏好對齊合併為單一步驟。

資料品質重於數量

研究一致顯示，一小組高品質的指令-回應配對優於一大組低品質的。LIMA 論文（Zhou 等人，2023年）顯示，僅用 1,000 個精心策劃的範例進行微調就能產生令人驚訝的好結果。關鍵在於多樣性（涵蓋許多任務類型）和品質（真正出色的回應，而不僅僅是足夠好的）。這就是為什麼指令資料策劃已成為一個專門的學科。

指令微調

為什麼重要

深度解析

SFT vs. RLHF vs. DPO

資料品質重於數量

相關概念