Model Merging: Definição e significado — Wiki de IA

Combinar os pesos de múltiplos modelos ajustados em um único modelo sem nenhum treinamento adicional. Se o modelo A é ótimo em codificação e o modelo B é ótimo em escrita criativa, mesclá-los pode produzir um modelo que é bom em ambos. Métodos populares de mesclagem incluem SLERP (interpolação esférica), TIES (resolução de conflitos de sinal) e DARE (descarte aleatório de parâmetros antes da mesclagem).

Por que isso importa

Model merging é a arma secreta da comunidade open-source. Custa zero computação (apenas matemática em tensores de pesos) e pode produzir modelos que superam seus componentes. Muitos dos melhores modelos no Open LLM Leaderboard são mesclagens. Também é como praticantes combinam múltiplos fine-tunes LoRA em um único modelo versátil. Entender mesclagem desbloqueia uma capacidade poderosa e gratuita para qualquer pessoa trabalhando com modelos abertos.

Em profundidade

A mesclagem mais simples: interpolação linear. Novo_peso = α · A_peso + (1−α) · B_peso, onde α controla o equilíbrio. Isso funciona surpreendentemente bem quando os modelos compartilham o mesmo modelo base (ex.: dois fine-tunes diferentes de Llama). O modelo mesclado interpola entre os comportamentos de ambas as fontes. SLERP (Spherical Linear Interpolation) interpola ao longo da superfície da hiperesfera em vez de linearmente, frequentemente produzindo resultados ligeiramente melhores.

Aritmética de Tarefas

Uma abordagem mais fundamentada: calcule "vetores de tarefa" (a diferença entre um modelo fine-tuned e o modelo base), depois adicione vetores de tarefa ao modelo base. Isso permite compor capacidades: base + vetor_codificação + vetor_escrita = um modelo com ambas as habilidades. TIES melhora isso resolvendo conflitos de sinal entre vetores de tarefa (quando duas tarefas querem mover o mesmo peso em direções opostas). DARE melhora descartando aleatoriamente a maioria das entradas do vetor de tarefa, reduzindo interferência.

Por Que Funciona (e Quando Não Funciona)

Mesclagem funciona porque fine-tuning tipicamente modifica um pequeno subconjunto do comportamento do modelo enquanto preserva a maioria de suas capacidades gerais. As modificações de diferentes fine-tunes frequentemente ocupam "regiões" diferentes do espaço de parâmetros com conflito mínimo. Falha quando fine-tunes conflitam diretamente (dois modelos treinados para se comportar de formas opostas), quando os modelos base são muito diferentes (não dá para mesclar um Llama com um Mistral) ou quando as modificações de um componente são tão grandes que dominam a mesclagem.

Model Merging

Por que isso importa

Em profundidade

Aritmética de Tarefas

Por Que Funciona (e Quando Não Funciona)

Conceitos relacionados