प्रक्रिया: विविध कार्यों को कवर करने वाले हज़ारों से लाखों (instruction, ideal response) pairs इकट्ठा करें — Q&A, summarization, coding, creative writing, math, conversation। Standard supervised learning का उपयोग करके इन pairs पर base model को fine-tune करें (instruction दिए जाने पर response tokens पर loss को minimize करें)। Model meta-pattern सीखता है: "जब एक instruction दिया जाए, तो एक helpful response उत्पन्न करो।"
Instruction tuning (Supervised Fine-Tuning / SFT) आमतौर पर पहला post-training step होता है, जिसके बाद RLHF या DPO के माध्यम से alignment आती है। SFT model को format और basic helpfulness सिखाता है। RLHF/DPO फिर व्यवहार को refine करता है — responses को अधिक helpful, कम harmful, और बेहतर calibrated बनाता है। कुछ approaches (जैसे ORPO) SFT और preference alignment को एक ही step में combine करते हैं।
Research लगातार दिखाता है कि उच्च-गुणवत्ता वाले instruction-response pairs का छोटा सेट निम्न-गुणवत्ता वाले बड़े सेट से बेहतर प्रदर्शन करता है। LIMA paper (Zhou et al., 2023) ने दिखाया कि केवल 1,000 सावधानी से curated examples के साथ fine-tuning आश्चर्यजनक रूप से अच्छे परिणाम दे सकता है। कुंजी विविधता (कई task types को cover करना) और गुणवत्ता (ऐसे responses जो वास्तव में उत्कृष्ट हैं, न कि बस पर्याप्त) है। यही कारण है कि instruction data curation एक विशेष अनुशासन बन गया है।