NVIDIA Research ने X-Token जारी किया, एक cross-tokenizer knowledge distillation विधि जो एक student मॉडल को अलग tokenizers वाले teachers से सीखने देती है — वह बाधा जिसने मॉडल families के पार distillation को रोका है। मानक KD के लिए teacher और student को एक vocabulary साझा करनी होती है ताकि token स्थितियाँ संरेखित हों; X-Token इसे हटाता है। Qwen3-4B से distill किए गए Llama-3.2-1B student पर हेडलाइन परिणाम: GSM8k accuracy 2.56 (पिछली विधि GOLD के साथ) से 15.54 तक जाती है, एक 6× recovery, benchmarks में +3.82 औसत। tokenizer families के पार multi-teacher distillation — पहले असंभव — Phi-mini + Llama-3B जोड़ी के साथ 20.39 GSM8k तक पहुँचती है। पेपर arXiv 2605.21699 है; काम एक single H100 पर चलता है (iteration गति के लिए 128 उपयोग किए गए)।
मैकेनिज्म समझने योग्य है क्योंकि यह समझाता है कि cross-tokenizer KD क्यों कठिन था। GOLD, पिछली विधि, में दो संरचनात्मक विफलताएँ थीं। पहला, असामान्य-token दमन: Llama "201" को एक token के रूप में tokenize करता है, Qwen इसे "2","0","1" में split करता है — तो सभी 1,100 multi-digit Llama अंक GOLD के unmatched सेट में गिरते हैं और identity-agnostic noise प्लस suppressive gradients प्राप्त करते हैं, GSM8k को 2.56 तक collapse करते हुए। दूसरा, over-conservative matching: GOLD strict string equality का उपयोग करता है, तो student token "Hundreds" जो teacher "Hund"+"reds" को map करता है, खारिज हो जाता है, वास्तविक संरेखण संकेत खोते हुए। X-Token दोनों को प्रशिक्षण से पहले बनाई गई deterministic projection matrix W से ठीक करता है: pass एक exact string matches को 1 पर सेट करता है; pass दो unmatched student tokens को teacher vocabulary के तहत re-tokenize करता है और, यदि परिणाम ≤4 tokens है, क्षयित weights (0.9·0.1^i, तो 2-token span को 0.909/0.091 मिलता है) असाइन करता है। प्रत्येक पंक्ति 1 तक योग करती है, projection को probability-preserving बनाते हुए। दो losses अनुसरण करते हैं: P-KL student वितरण को teacher vocabulary space में project करता है; H-KL matching को W के तहत top-1 mappings तक relax करता है।
इकोसिस्टम रीडिंग: यह मॉडल families के पार multi-teacher distillation को unlock करता है, जिसे tokenizer mismatch चुपचाप रोक रहा था। छोटे मॉडल distill करने वाले बिल्डर्स के लिए, आप अब अपने student के tokenizer को साझा करने वाले teachers तक सीमित नहीं हैं — आप प्रति क्षमता सबसे मजबूत teacher से खींच सकते हैं इसकी vocabulary की परवाह किए बिना, और विभिन्न families के teachers को combine कर सकते हैं। यह खोज कि "teacher पूरकता, teacher गिनती नहीं, gains चलाती है" डिज़ाइन मार्गदर्शन है: एक Phi-mini + Llama-3B जोड़ी ने overlapping जोड़ियों को हराया क्योंकि teachers अलग कमजोरियाँ कवर करते थे, इसलिए नहीं कि अधिक थे। यह स्वामित्व distillation pipelines के लिए खुला-अनुसंधान प्रतिकार है — cross-tokenizer बाधा किसी के लिए भी एक वास्तविक moat थी जिसके पास matched teacher-student vocabularies थीं, और X-Token इसे क्षरण करता है।
यदि आप सोमवार सुबह छोटे मॉडल distill करते हैं: X-Token (arXiv 2605.21699) आपके teacher चयन से same-tokenizer बाधा हटाता है, तो अपने distillation को प्रति skill सर्वोत्तम उपलब्ध teacher से खींचने के लिए re-architect करें, बजाय सर्वोत्तम teacher जो संयोग से आपका tokenizer साझा करता है। ईमानदार चेतावनियाँ: परिणाम विशेष रूप से Llama-3.2-1B student पर हैं, code उपलब्धता writeup में पुष्ट नहीं है (arXiv repo देखें), और ये NVIDIA के अपने benchmark नंबर हैं स्वतंत्र पुनरुत्पादन लंबित। projection-matrix विचार पेपर से re-implement करने के लिए पर्याप्त सरल है यदि code release नहीं है — जो वास्तविक portability परीक्षण है।
