過程:收集數千到數百萬個涵蓋各種任務的(指令,理想回應)配對——問答、摘要、程式設計、創意寫作、數學、對話。使用標準監督學習在這些配對上微調基礎模型(最小化在給定指令的情況下回應 token 的損失)。模型學習到元模式:「當收到指令時,產生有幫助的回應。」
指令微調(監督微調 / SFT)通常是第一個後訓練步驟,然後是透過 RLHF 或 DPO 進行的對齊。SFT 教模型格式和基本的有用性。RLHF/DPO 然後精煉行為——使回應更有幫助、更少有害、更好地校準。一些方法(如 ORPO)將 SFT 和偏好對齊合併為單一步驟。
研究一致顯示,一小組高品質的指令-回應配對優於一大組低品質的。LIMA 論文(Zhou 等人,2023年)顯示,僅用 1,000 個精心策劃的範例進行微調就能產生令人驚訝的好結果。關鍵在於多樣性(涵蓋許多任務類型)和品質(真正出色的回應,而不僅僅是足夠好的)。這就是為什麼指令資料策劃已成為一個專門的學科。