Zubnet AI學習Wiki › 指令微調
訓練

指令微調

指令微調、IFT、SFT
在一組(指令,回應)配對的資料集上微調預訓練語言模型,教它遵循指令。一個只能預測文字的基礎模型變成一個能回答問題、遵循指示並表現得像助手的模型。這就是將 GPT 變成 ChatGPT,或將基礎 Llama 變成 Llama-Chat 的步驟。

為什麼重要

指令微調是原始語言模型(只能完成文字)和有用助手(能遵循指令)之間的橋樑。沒有它,即使是最強大的基礎模型也只會生成聽起來合理的文字,而不是真正按你的要求去做。這可以說是最重要的後訓練步驟。

深度解析

過程:收集數千到數百萬個涵蓋各種任務的(指令,理想回應)配對——問答、摘要、程式設計、創意寫作、數學、對話。使用標準監督學習在這些配對上微調基礎模型(最小化在給定指令的情況下回應 token 的損失)。模型學習到元模式:「當收到指令時,產生有幫助的回應。」

SFT vs. RLHF vs. DPO

指令微調(監督微調 / SFT)通常是第一個後訓練步驟,然後是透過 RLHF 或 DPO 進行的對齊。SFT 教模型格式和基本的有用性。RLHF/DPO 然後精煉行為——使回應更有幫助、更少有害、更好地校準。一些方法(如 ORPO)將 SFT 和偏好對齊合併為單一步驟。

資料品質重於數量

研究一致顯示,一小組高品質的指令-回應配對優於一大組低品質的。LIMA 論文(Zhou 等人,2023年)顯示,僅用 1,000 個精心策劃的範例進行微調就能產生令人驚訝的好結果。關鍵在於多樣性(涵蓋許多任務類型)和品質(真正出色的回應,而不僅僅是足夠好的)。這就是為什麼指令資料策劃已成為一個專門的學科。

相關概念

← 所有術語
← 持續學習 指令遵循 →