NVIDIA Research a sorti X-Token, une méthode de knowledge distillation cross-tokenizer qui laisse un modèle student apprendre de teachers avec des tokenizers différents — la contrainte qui a bloqué la distillation à travers les familles de modèles. La KD standard demande que le teacher pis le student partagent un vocabulaire pour que les positions de tokens alignent ; X-Token enlève ça. Le résultat phare sur un student Llama-3.2-1B distillé de Qwen3-4B : l'accuracy GSM8k passe de 2,56 (avec la méthode précédente, GOLD) à 15,54, un recovery 6×, avec +3,82 moyenne à travers les benchmarks. La distillation multi-teacher à travers les familles de tokenizer — précédemment impossible — atteint 20,39 GSM8k avec une paire Phi-mini + Llama-3B. Le papier est arXiv 2605.21699 ; le travail roule sur un seul H100 (128 utilisés pour la vitesse d'itération).
Le mécanisme vaut la peine d'être compris parce qu'il explique pourquoi la KD cross-tokenizer était dure. GOLD, la méthode précédente, avait deux failles structurelles. Premièrement, la suppression de tokens peu communs : Llama tokenize « 201 » comme un token, Qwen le splitte en « 2 »,« 0 »,« 1 » — donc tous les 1 100 numéraux multi-digit Llama tombent dans le set unmatched de GOLD pis reçoivent du noise identity-agnostic plus des gradients suppressifs, collapsant GSM8k à 2,56. Deuxièmement, le matching over-conservative : GOLD utilise l'égalité de string stricte, donc le token student « Hundreds » qui mappe au teacher « Hund »+« reds » est jeté, perdant du vrai signal d'alignement. X-Token fixe les deux avec une matrice de projection déterministe W bâtie avant l'entraînement : la passe un met les exact string matches à 1 ; la passe deux re-tokenize les tokens student unmatched sous le vocabulaire teacher pis, si le résultat est ≤4 tokens, assigne des poids décroissants (0,9·0,1^i, donc un span 2-tokens obtient 0,909/0,091). Chaque rangée somme à 1, rendant la projection probability-preserving. Deux losses suivent : P-KL projette la distribution student dans l'espace vocabulaire teacher ; H-KL relâche le matching aux top-1 mappings sous W.
La lecture écosystème : ça unlock la distillation multi-teacher à travers les familles de modèles, que le mismatch de tokenizer bloquait tranquillement. Pour les bâtisseurs qui distillent des petits modèles, t'es plus limité aux teachers qui partagent le tokenizer de ton student — tu peux puiser du teacher le plus fort par capacité peu importe son vocabulaire, pis combiner des teachers de différentes familles. La trouvaille que « la complémentarité des teachers, pas le compte de teachers, drive les gains » est la guidance de design : une paire Phi-mini + Llama-3B a battu les paires overlapping parce que les teachers couvraient différentes faiblesses, pas parce qu'il y en avait plus. C'est le contrepoids de recherche ouverte aux pipelines de distillation propriétaires — la contrainte cross-tokenizer était un vrai moat pour quiconque avait des vocabulaires teacher-student matchés, pis X-Token l'érode.
Si tu distilles des petits modèles lundi matin : X-Token (arXiv 2605.21699) enlève la contrainte same-tokenizer de ta sélection de teacher, donc ré-architecte ta distillation pour puiser du meilleur teacher disponible par skill plutôt que du meilleur teacher qui adonne à partager ton tokenizer. Les caveats honnêtes : les résultats sont sur un student Llama-3.2-1B spécifiquement, la disponibilité du code est pas confirmée dans le writeup (check le repo arXiv), pis ce sont les chiffres de benchmark propres de NVIDIA en attente de reproduction indépendante. L'idée de matrice de projection est assez simple pour ré-implémenter du papier si le code est pas release — c'est le vrai test de portabilité.
