Instruction Tuning: परिभाषा और अर्थ — AI विकी

एक pre-trained language model को (instruction, response) pairs के dataset पर fine-tune करना ताकि उसे instructions का पालन करना सिखाया जा सके। एक base model जो सिर्फ text predict करता है, एक ऐसा model बन जाता है जो सवालों के जवाब देता है, निर्देशों का पालन करता है, और एक assistant की तरह व्यवहार करता है। यही वह step है जो GPT को ChatGPT में, या base Llama को Llama-Chat में बदलता है।

यह क्यों मायने रखता है

Instruction tuning एक raw language model (जो केवल text complete कर सकता है) और एक उपयोगी assistant (जो instructions का पालन कर सकता है) के बीच का सेतु है। इसके बिना, सबसे सक्षम base model भी वास्तव में आपकी बात मानने के बजाय बस विश्वसनीय-लगने वाला text generate करता है। यह संभवतः सबसे महत्वपूर्ण post-training step है।

गहन अध्ययन

प्रक्रिया: विविध कार्यों को कवर करने वाले हज़ारों से लाखों (instruction, ideal response) pairs इकट्ठा करें — Q&A, summarization, coding, creative writing, math, conversation। Standard supervised learning का उपयोग करके इन pairs पर base model को fine-tune करें (instruction दिए जाने पर response tokens पर loss को minimize करें)। Model meta-pattern सीखता है: "जब एक instruction दिया जाए, तो एक helpful response उत्पन्न करो।"

SFT बनाम RLHF बनाम DPO

Instruction tuning (Supervised Fine-Tuning / SFT) आमतौर पर पहला post-training step होता है, जिसके बाद RLHF या DPO के माध्यम से alignment आती है। SFT model को format और basic helpfulness सिखाता है। RLHF/DPO फिर व्यवहार को refine करता है — responses को अधिक helpful, कम harmful, और बेहतर calibrated बनाता है। कुछ approaches (जैसे ORPO) SFT और preference alignment को एक ही step में combine करते हैं।

गुणवत्ता पर मात्रा से ज़्यादा ध्यान

Research लगातार दिखाता है कि उच्च-गुणवत्ता वाले instruction-response pairs का छोटा सेट निम्न-गुणवत्ता वाले बड़े सेट से बेहतर प्रदर्शन करता है। LIMA paper (Zhou et al., 2023) ने दिखाया कि केवल 1,000 सावधानी से curated examples के साथ fine-tuning आश्चर्यजनक रूप से अच्छे परिणाम दे सकता है। कुंजी विविधता (कई task types को cover करना) और गुणवत्ता (ऐसे responses जो वास्तव में उत्कृष्ट हैं, न कि बस पर्याप्त) है। यही कारण है कि instruction data curation एक विशेष अनुशासन बन गया है।

Instruction Tuning

यह क्यों मायने रखता है

गहन अध्ययन

SFT बनाम RLHF बनाम DPO

गुणवत्ता पर मात्रा से ज़्यादा ध्यान

संबंधित अवधारणाएँ