La fusión más simple: interpolación lineal. Nuevo_peso = α · peso_A + (1−α) · peso_B, donde α controla el balance. Esto funciona sorprendentemente bien cuando los modelos comparten el mismo modelo base (por ejemplo, dos fine-tunes diferentes de Llama). El modelo fusionado interpola entre los comportamientos de ambas fuentes. SLERP (Spherical Linear Interpolation) interpola a lo largo de la superficie de la hiperesfera en lugar de linealmente, a menudo produciendo resultados ligeramente mejores.
Un enfoque más fundamentado: calcular "vectores de tarea" (la diferencia entre un modelo ajustado y el modelo base), luego agregar los vectores de tarea al modelo base. Esto permite componer capacidades: base + vector_código + vector_escritura = un modelo con ambas habilidades. TIES mejora esto resolviendo conflictos de signo entre vectores de tarea (cuando dos tareas quieren mover el mismo peso en direcciones opuestas). DARE lo mejora descartando aleatoriamente la mayoría de las entradas del vector de tarea, reduciendo la interferencia.
La fusión funciona porque el fine-tuning típicamente modifica un pequeño subconjunto del comportamiento del modelo mientras preserva la mayoría de sus capacidades generales. Las modificaciones de diferentes fine-tunes a menudo ocupan diferentes "regiones" del espacio de parámetros con conflicto mínimo. Falla cuando los fine-tunes entran en conflicto directo (dos modelos entrenados para comportarse de manera opuesta), cuando los modelos base son demasiado diferentes (no puedes fusionar un Llama con un Mistral), o cuando las modificaciones de un componente son tan grandes que dominan la fusión.