फाइन-ट्यूनिंग काम करता है जब आप एक नए, आमतौर पर बहुत छोटे डेटासेट पर प्रशिक्षण प्रक्रिया को जारी रखते हैं, लेकिन पूर्व-प्रशिक्षित मॉडल के वेट्स से शुरू करते हैं, जबकि यादृच्छिक प्रारंभीकरण से नहीं। यह तकनीक सरल है: आप अपने डेटा को इनपुट-आउटपुट जोड़े (या निर्देश-प्रतिक्रिया जोड़े) के रूप में तैयार करते हैं, एक कम लर्निंग रेट सेट करते हैं (आमतौर पर पूर्व-प्रशिक्षण के 10x से 100x कम), और कुछ एपोक्स के लिए प्रशिक्षित करते हैं। कम लर्निंग रेट महत्वपूर्ण है — बहुत अधिक और आप पूर्व-प्रशिक्षण के दौरान मॉडल द्वारा सीखे गए ज्ञान को नष्ट कर देंगे, जिसे बुरी भूल कहा जाता है। बहुत कम और मॉडल अपने नए डेटा के अनुकूल नहीं हो सकता। सही संतुलन खोजना विज्ञान से अधिक कला है, और इसे सही करने के लिए अक्सर कई रन की आवश्यकता होती है।
फाइन-ट्यूनिंग के कई अलग-अलग तरीके होते हैं, और शब्दावली गुंजाइश वाली होती है। पूर्ण फाइन-ट्यूनिंग मॉडल में हर पैरामीटर को अपडेट करता है — यह सबसे अभिव्यक्तिपूर्ण है लेकिन भी सबसे महंगा और छोटे डेटासेट पर अतिसंकल्प के लिए सबसे अधिक प्रवण है। सुपरवाइज्ड फाइन-ट्यूनिंग (SFT) विशेष रूप से लेबल किए गए निर्देश-प्रतिक्रिया जोड़ों पर प्रशिक्षण के लिए संदर्भित करता है, जो बेस मॉडल को चैट असिस्टेंट में बदलने के तरीके हैं। यही वह चीज है जो आप OpenAI के फाइन-ट्यूनिंग API का उपयोग करते समय करते हैं, और ऐसे प्रोजेक्ट्स जैसे Axolotl और LLaMA-Factory इसे स्थानीय रूप से आसान बनाते हैं। फिर पैरामीटर अभिकर्मक विधियां जैसे LoRA और QLoRA होती हैं, जो केवल एक छोटे से अंश के पैरामीटर को अपडेट करती हैं और अधिकांश व्यावहारिक उपयोग मामलों के लिए पूर्ण फाइन-ट्यूनिंग को बदल चुकी हैं। अंतर महत्वपूर्ण है क्योंकि प्रत्येक प्रयोग अलग डेटा आवश्यकताओं, कम्प्यूटेशन लागत और जोखिमों के साथ होता है।
आपके फाइन-ट्यूनिंग डेटासेट की गुणवत्ता और फॉर्मेट बहुत महत्वपूर्ण होता है — अक्सर इसके आकार से अधिक। कुछ सैकड़ों उच्च गुणवत्ता वाले, ध्यान से बनाए गए उदाहरण ठीक फॉर्मेट में बहुत अधिक डेटा के तुलना में बेहतर परिणाम दे सकते हैं। निर्देश प्रशिक्षण के लिए मानक फॉर्मेट एक संरचित बातचीत है: सिस्टम संदेश, यूजर संदेश, असिस्टेंट प्रतिक्रिया। अपने डेटासेट में फॉर्मेटिंग, टोन और गुणवत्ता के संगतता आयाम में आयाम बहुत महत्वपूर्ण होता है। एक आम खामी डेटा पर प्रशिक्षण करना है जो पूर्व-प्रशिक्षण में सीखे गए बातों के विरोधाभास द्वारा बना होता है — यदि आपका डेटासेट कहता है कि आसमान हरा है, तो मॉडल आसमान हरा होने के बारे में कहेगा, लेकिन केवल आपके प्रशिक्षण उदाहरणों के समान संदर्भ में। अन्यथा, यह पूर्व-प्रशिक्षण ज्ञान पर वापस जाएगा, जिससे असंगत व्यवहार बनेगा जिसकी जांच करना कठिन होगा।
जब फाइन-ट्यूनिंग करें या अन्य दृष्टिकोणों का उपयोग करें, यह एप्लाइड एआई में सबसे महत्वपूर्ण व्यावहारिक निर्णयों में से एक है। फाइन-ट्यूनिंग सही उपकरण है जब आपको मॉडल के एक विशिष्ट फॉर्मेट, टोन या व्यवहार पैटर्न को नियमित रूप से अपनाने की आवश्यकता होती है, जो केवल प्रॉम्प्टिंग के माध्यम से विश्वसनीय रूप से प्राप्त नहीं किया जा सकता है। यद