NVIDIA X-Token: destilar entre tokenizers, GSM8k 2,56 a 15,54 sobre GOLD

A NVIDIA Research lançou X-Token, um método de knowledge distillation cross-tokenizer que deixa um modelo student aprender de teachers com tokenizers diferentes — a restrição que tem bloqueado a destilação entre famílias de modelos. A KD padrão requer que o teacher e o student compartilhem um vocabulário para que as posições de tokens alinhem; X-Token remove isso. O resultado principal em um student Llama-3.2-1B destilado de Qwen3-4B: a accuracy GSM8k vai de 2,56 (com o método prévio, GOLD) para 15,54, um recovery 6×, com +3,82 média através de benchmarks. A destilação multi-teacher entre famílias de tokenizer — previamente impossível — atinge 20,39 GSM8k com um par Phi-mini + Llama-3B. O paper é arXiv 2605.21699; o trabalho roda em um único H100 (128 usados para velocidade de iteração).

O mecanismo vale a pena entender porque explica por que a KD cross-tokenizer era difícil. GOLD, o método prévio, tinha duas falhas estruturais. Primeiro, supressão de tokens incomuns: Llama tokeniza "201" como um token, Qwen o splitta em "2","0","1" — então todos os 1.100 numerais multi-dígito Llama caem no set unmatched do GOLD e recebem noise identity-agnostic mais gradientes supressivos, colapsando GSM8k para 2,56. Segundo, matching over-conservativo: GOLD usa igualdade de string estrita, então o token student "Hundreds" que mapeia para o teacher "Hund"+"reds" é descartado, perdendo sinal de alinhamento real. X-Token corrige ambos com uma matriz de projeção determinística W construída antes do treinamento: o pass um define os exact string matches para 1; o pass dois re-tokeniza os tokens student unmatched sob o vocabulário teacher e, se o resultado é ≤4 tokens, atribui pesos decaídos (0,9·0,1^i, então um span 2-tokens obtém 0,909/0,091). Cada linha soma a 1, fazendo a projeção probability-preserving. Dois losses seguem: P-KL projeta a distribuição student no espaço vocabulário teacher; H-KL relaxa o matching para top-1 mappings sob W.

A leitura de ecossistema: isso desbloqueia a destilação multi-teacher entre famílias de modelos, que o mismatch de tokenizer vem bloqueando silenciosamente. Para construtores que destilam modelos pequenos, você não está mais limitado a teachers que compartilham o tokenizer do seu student — você pode extrair do teacher mais forte por capacidade independente de seu vocabulário, e combinar teachers de diferentes famílias. O achado de que "a complementaridade de teachers, não a contagem de teachers, impulsiona os ganhos" é a orientação de design: um par Phi-mini + Llama-3B venceu pares overlapping porque os teachers cobriam diferentes fraquezas, não porque havia mais. Este é o contrapeso de pesquisa aberta aos pipelines de destilação proprietários — a restrição cross-tokenizer era um moat real para quem tivesse vocabulários teacher-student matcheados, e X-Token o erode.

Se você destila modelos pequenos segunda de manhã: X-Token (arXiv 2605.21699) remove a restrição same-tokenizer da sua seleção de teacher, então re-arquitete sua destilação para extrair do melhor teacher disponível por skill em vez do melhor teacher que por acaso compartilha seu tokenizer. As ressalvas honestas: os resultados são em um student Llama-3.2-1B especificamente, a disponibilidade de código não está confirmada no writeup (verifique o repo arXiv), e estes são os números de benchmark próprios da NVIDIA pendentes de reprodução independente. A ideia de matriz de projeção é simples o suficiente para reimplementar do paper se o código não for liberado — que é o verdadeiro teste de portabilidade.

NVIDIA X-Token: destilar entre tokenizers, GSM8k 2,56 a 15,54 sobre GOLD

Mais notícias