NVIDIA Research发布了X-Token,一种跨tokenizer知识蒸馏方法,让student模型从拥有不同tokenizer的teacher学习——这是一直阻碍跨模型族蒸馏的约束。标准KD要求teacher和student共享词汇表以使token位置对齐;X-Token移除了这一点。在从Qwen3-4B蒸馏的Llama-3.2-1B student上的头条结果:GSM8k准确率从2.56(用先前方法GOLD)到15.54,6×恢复,跨基准平均+3.82。跨tokenizer族的多teacher蒸馏——此前不可能——用Phi-mini + Llama-3B对达到20.39 GSM8k。论文是arXiv 2605.21699;工作在单个H100上运行(128个用于迭代速度)。
机制值得理解,因为它解释了为什么跨tokenizer KD很难。GOLD这个先前方法有两个结构性失败。第一,不常见token抑制:Llama将"201"标记为一个token,Qwen将其拆分为"2","0","1"——所以所有1,100个Llama多位数数字落入GOLD的unmatched集合并接收identity-agnostic噪声加抑制性梯度,使GSM8k崩溃到2.56。第二,过于保守的匹配:GOLD使用严格字符串相等,所以student token "Hundreds"映射到teacher "Hund"+"reds"被丢弃,丢失真实对齐信号。X-Token用训练前构建的确定性投影矩阵W修复两者:pass一将精确字符串匹配设为1;pass二在teacher词汇下重新标记unmatched student token,如果结果是≤4个token,分配衰减权重(0.9·0.1^i,所以2-token span得到0.909/0.091)。每行总和为1,使投影probability-preserving。随后两个loss:P-KL将student分布投影到teacher词汇空间;H-KL放松匹配到W下的top-1映射。
生态系统解读:这解锁了跨模型族的多teacher蒸馏,这是tokenizer不匹配一直在悄悄阻碍的。对于蒸馏小模型的构建者,你不再限于共享你student tokenizer的teacher——你可以从每能力最强的teacher提取,无论其词汇,并组合不同族的teacher。"teacher互补性,而非teacher数量,驱动收益"的发现是设计指导:Phi-mini + Llama-3B对击败重叠对,因为teacher覆盖不同弱点,而非因为有更多。这是对专有蒸馏pipeline的开放研究制衡——跨tokenizer约束对任何拥有匹配teacher-student词汇的人是真正的护城河,X-Token侵蚀它。
如果你周一早上蒸馏小模型:X-Token(arXiv 2605.21699)从你的teacher选择中移除same-tokenizer约束,所以重新架构你的蒸馏以从每技能最佳可用teacher提取,而非碰巧共享你tokenizer的最佳teacher。诚实的警告:结果是专门在Llama-3.2-1B student上,代码可用性在writeup中未确认(查arXiv repo),这些是NVIDIA自己的基准数字待独立复现。如果代码未发布,投影矩阵想法足够简单可从论文重新实现——这是真正的可移植性测试。
