A mesclagem mais simples: interpolação linear. Novo_peso = α · A_peso + (1−α) · B_peso, onde α controla o equilíbrio. Isso funciona surpreendentemente bem quando os modelos compartilham o mesmo modelo base (ex.: dois fine-tunes diferentes de Llama). O modelo mesclado interpola entre os comportamentos de ambas as fontes. SLERP (Spherical Linear Interpolation) interpola ao longo da superfície da hiperesfera em vez de linearmente, frequentemente produzindo resultados ligeiramente melhores.
Uma abordagem mais fundamentada: calcule "vetores de tarefa" (a diferença entre um modelo fine-tuned e o modelo base), depois adicione vetores de tarefa ao modelo base. Isso permite compor capacidades: base + vetor_codificação + vetor_escrita = um modelo com ambas as habilidades. TIES melhora isso resolvendo conflitos de sinal entre vetores de tarefa (quando duas tarefas querem mover o mesmo peso em direções opostas). DARE melhora descartando aleatoriamente a maioria das entradas do vetor de tarefa, reduzindo interferência.
Mesclagem funciona porque fine-tuning tipicamente modifica um pequeno subconjunto do comportamento do modelo enquanto preserva a maioria de suas capacidades gerais. As modificações de diferentes fine-tunes frequentemente ocupam "regiões" diferentes do espaço de parâmetros com conflito mínimo. Falha quando fine-tunes conflitam diretamente (dois modelos treinados para se comportar de formas opostas), quando os modelos base são muito diferentes (não dá para mesclar um Llama com um Mistral) ou quando as modificações de um componente são tão grandes que dominam a mesclagem.