NVIDIA Research發布了X-Token,一種跨tokenizer知識蒸餾方法,讓student模型從擁有不同tokenizer的teacher學習——這是一直阻礙跨模型族蒸餾的約束。標準KD要求teacher和student共享詞彙表以使token位置對齊;X-Token移除了這一點。在從Qwen3-4B蒸餾的Llama-3.2-1B student上的頭條結果:GSM8k準確率從2.56(用先前方法GOLD)到15.54,6×恢復,跨基準平均+3.82。跨tokenizer族的多teacher蒸餾——此前不可能——用Phi-mini + Llama-3B對達到20.39 GSM8k。論文是arXiv 2605.21699;工作在單個H100上執行(128個用於迭代速度)。
機制值得理解,因為它解釋了為什麼跨tokenizer KD很難。GOLD這個先前方法有兩個結構性失敗。第一,不常見token抑制:Llama將"201"標記為一個token,Qwen將其拆分為"2","0","1"——所以所有1,100個Llama多位數數字落入GOLD的unmatched集合並接收identity-agnostic雜訊加抑制性梯度,使GSM8k崩潰到2.56。第二,過於保守的匹配:GOLD使用嚴格字串相等,所以student token "Hundreds"映射到teacher "Hund"+"reds"被丟棄,丟失真實對齊訊號。X-Token用訓練前構建的確定性投影矩陣W修復兩者:pass一將精確字串匹配設為1;pass二在teacher詞彙下重新標記unmatched student token,如果結果是≤4個token,分配衰減權重(0.9·0.1^i,所以2-token span得到0.909/0.091)。每行總和為1,使投影probability-preserving。隨後兩個loss:P-KL將student分佈投影到teacher詞彙空間;H-KL放鬆匹配到W下的top-1映射。
生態系統解讀:這解鎖了跨模型族的多teacher蒸餾,這是tokenizer不匹配一直在悄悄阻礙的。對於蒸餾小模型的建構者,你不再限於共享你student tokenizer的teacher——你可以從每能力最強的teacher提取,無論其詞彙,並組合不同族的teacher。"teacher互補性,而非teacher數量,驅動收益"的發現是設計指導:Phi-mini + Llama-3B對擊敗重疊對,因為teacher覆蓋不同弱點,而非因為有更多。這是對專有蒸餾pipeline的開放研究制衡——跨tokenizer約束對任何擁有匹配teacher-student詞彙的人是真正的護城河,X-Token侵蝕它。
如果你週一早上蒸餾小模型:X-Token(arXiv 2605.21699)從你的teacher選擇中移除same-tokenizer約束,所以重新架構你的蒸餾以從每技能最佳可用teacher提取,而非碰巧共享你tokenizer的最佳teacher。誠實的警告:結果是專門在Llama-3.2-1B student上,程式碼可用性在writeup中未確認(查arXiv repo),這些是NVIDIA自己的基準數字待獨立複現。如果程式碼未發布,投影矩陣想法足夠簡單可從論文重新實現——這是真正的可移植性測試。
