Model Merging: परिभाषा और अर्थ — AI विकी

कई fine-tuned मॉडलों के weights को बिना किसी अतिरिक्त प्रशिक्षण के एक single मॉडल में मिलाना। यदि मॉडल A कोडिंग में बहुत अच्छा है और मॉडल B रचनात्मक लेखन में बहुत अच्छा है, तो उन्हें merge करने से एक ऐसा मॉडल बन सकता है जो दोनों में अच्छा है। लोकप्रिय merging विधियों में SLERP (गोलाकार interpolation), TIES (sign conflicts को हल करना), और DARE (merge से पहले यादृच्छिक रूप से parameters drop करना) शामिल हैं।

यह क्यों मायने रखता है

Model merging ओपन-सोर्स समुदाय का गुप्त हथियार है। इसमें शून्य compute लागत (बस weight tensors पर गणित) है और यह ऐसे मॉडल उत्पन्न कर सकता है जो अपने घटकों से बेहतर प्रदर्शन करते हैं। Open LLM Leaderboard पर कई शीर्ष मॉडल merges हैं। यह वह तरीका भी है जिससे practitioners कई LoRA fine-tunes को एक single बहुमुखी मॉडल में जोड़ते हैं। Merging को समझना ओपन मॉडलों के साथ काम करने वाले किसी भी व्यक्ति के लिए एक शक्तिशाली, मुफ़्त क्षमता अनलॉक करता है।

गहन अध्ययन

सबसे सरल merge: linear interpolation। New_weight = α · A_weight + (1−α) · B_weight, जहां α संतुलन को नियंत्रित करता है। यह आश्चर्यजनक रूप से अच्छी तरह काम करता है जब मॉडल एक ही base मॉडल साझा करते हैं (जैसे, दो अलग-अलग Llama fine-tunes)। Merged मॉडल दोनों स्रोतों के व्यवहारों के बीच interpolate करता है। SLERP (Spherical Linear Interpolation) रैखिक के बजाय hypersphere सतह पर interpolate करता है, जो अक्सर थोड़ा बेहतर परिणाम देता है।

Task Arithmetic

एक अधिक सैद्धांतिक दृष्टिकोण: "task vectors" (fine-tuned मॉडल और base मॉडल के बीच का अंतर) की गणना करें, फिर task vectors को base मॉडल में जोड़ें। यह आपको क्षमताओं को compose करने देता है: base + coding_vector + writing_vector = दोनों कौशलों वाला मॉडल। TIES task vectors के बीच sign conflicts (जब दो tasks एक ही weight को विपरीत दिशाओं में ले जाना चाहते हैं) को हल करके इसमें सुधार करता है। DARE अधिकांश task vector entries को यादृच्छिक रूप से drop करके interference कम करता है।

यह क्यों काम करता है (और कब नहीं)

Merging काम करता है क्योंकि fine-tuning आमतौर पर मॉडल के व्यवहार के एक छोटे हिस्से को संशोधित करता है जबकि इसकी अधिकांश सामान्य क्षमताओं को संरक्षित करता है। विभिन्न fine-tunes से संशोधन अक्सर parameter space के विभिन्न "क्षेत्रों" पर कब्जा करते हैं जिनमें न्यूनतम conflict होता है। यह विफल होता है जब fine-tunes सीधे conflict करते हैं (दो मॉडल विपरीत व्यवहार के लिए प्रशिक्षित), जब base मॉडल बहुत भिन्न होते हैं (Llama को Mistral के साथ merge नहीं कर सकते), या जब एक घटक के संशोधन इतने बड़े होते हैं कि वे merge पर हावी हो जाते हैं।

Model Merging

यह क्यों मायने रखता है

गहन अध्ययन

Task Arithmetic

यह क्यों काम करता है (और कब नहीं)

संबंधित अवधारणाएँ