सबसे सरल merge: linear interpolation। New_weight = α · A_weight + (1−α) · B_weight, जहां α संतुलन को नियंत्रित करता है। यह आश्चर्यजनक रूप से अच्छी तरह काम करता है जब मॉडल एक ही base मॉडल साझा करते हैं (जैसे, दो अलग-अलग Llama fine-tunes)। Merged मॉडल दोनों स्रोतों के व्यवहारों के बीच interpolate करता है। SLERP (Spherical Linear Interpolation) रैखिक के बजाय hypersphere सतह पर interpolate करता है, जो अक्सर थोड़ा बेहतर परिणाम देता है।
एक अधिक सैद्धांतिक दृष्टिकोण: "task vectors" (fine-tuned मॉडल और base मॉडल के बीच का अंतर) की गणना करें, फिर task vectors को base मॉडल में जोड़ें। यह आपको क्षमताओं को compose करने देता है: base + coding_vector + writing_vector = दोनों कौशलों वाला मॉडल। TIES task vectors के बीच sign conflicts (जब दो tasks एक ही weight को विपरीत दिशाओं में ले जाना चाहते हैं) को हल करके इसमें सुधार करता है। DARE अधिकांश task vector entries को यादृच्छिक रूप से drop करके interference कम करता है।
Merging काम करता है क्योंकि fine-tuning आमतौर पर मॉडल के व्यवहार के एक छोटे हिस्से को संशोधित करता है जबकि इसकी अधिकांश सामान्य क्षमताओं को संरक्षित करता है। विभिन्न fine-tunes से संशोधन अक्सर parameter space के विभिन्न "क्षेत्रों" पर कब्जा करते हैं जिनमें न्यूनतम conflict होता है। यह विफल होता है जब fine-tunes सीधे conflict करते हैं (दो मॉडल विपरीत व्यवहार के लिए प्रशिक्षित), जब base मॉडल बहुत भिन्न होते हैं (Llama को Mistral के साथ merge नहीं कर सकते), या जब एक घटक के संशोधन इतने बड़े होते हैं कि वे merge पर हावी हो जाते हैं।