NVIDIA X-Token: destilar entre tokenizers, GSM8k 2.56 a 15.54 sobre GOLD

NVIDIA Research lanzó X-Token, un método de knowledge distillation cross-tokenizer que deja a un modelo student aprender de teachers con tokenizers diferentes — la restricción que ha bloqueado la destilación entre familias de modelos. La KD estándar requiere que el teacher y el student compartan un vocabulario para que las posiciones de tokens alineen; X-Token quita eso. El resultado principal en un student Llama-3.2-1B destilado de Qwen3-4B: la accuracy GSM8k pasa de 2.56 (con el método previo, GOLD) a 15.54, un recovery 6×, con +3.82 promedio a través de benchmarks. La destilación multi-teacher entre familias de tokenizer — previamente imposible — alcanza 20.39 GSM8k con una pareja Phi-mini + Llama-3B. El paper es arXiv 2605.21699; el trabajo corre en un solo H100 (128 usados para velocidad de iteración).

El mecanismo vale la pena entender porque explica por qué la KD cross-tokenizer era difícil. GOLD, el método previo, tenía dos fallos estructurales. Primero, supresión de tokens poco comunes: Llama tokeniza "201" como un token, Qwen lo splittea en "2","0","1" — así todos los 1,100 numerales multi-dígito Llama caen en el set unmatched de GOLD y reciben noise identity-agnostic más gradientes supresivos, colapsando GSM8k a 2.56. Segundo, matching over-conservativo: GOLD usa igualdad de string estricta, así el token student "Hundreds" que mapea al teacher "Hund"+"reds" se descarta, perdiendo señal de alineación real. X-Token arregla ambos con una matriz de proyección determinista W construida antes del entrenamiento: el pass uno pone los exact string matches a 1; el pass dos re-tokeniza los tokens student unmatched bajo el vocabulario teacher y, si el resultado es ≤4 tokens, asigna pesos decaídos (0.9·0.1^i, así un span 2-tokens obtiene 0.909/0.091). Cada fila suma a 1, haciendo la proyección probability-preserving. Dos losses siguen: P-KL proyecta la distribución student en el espacio vocabulario teacher; H-KL relaja el matching a top-1 mappings bajo W.

La lectura de ecosistema: esto desbloquea la destilación multi-teacher entre familias de modelos, que el mismatch de tokenizer ha estado bloqueando silenciosamente. Para constructores que destilan modelos pequeños, ya no estás limitado a teachers que comparten el tokenizer de tu student — puedes extraer del teacher más fuerte por capacidad sin importar su vocabulario, y combinar teachers de diferentes familias. El hallazgo de que "la complementariedad de teachers, no el conteo de teachers, impulsa las ganancias" es la guía de diseño: una pareja Phi-mini + Llama-3B venció a parejas overlapping porque los teachers cubrían diferentes debilidades, no porque hubiera más. Este es el contrapeso de investigación abierta a los pipelines de destilación propietarios — la restricción cross-tokenizer era un moat real para quien tuviera vocabularios teacher-student matcheados, y X-Token lo erosiona.

Si destilas modelos pequeños el lunes por la mañana: X-Token (arXiv 2605.21699) quita la restricción same-tokenizer de tu selección de teacher, así re-arquitecta tu destilación para extraer del mejor teacher disponible por skill en lugar del mejor teacher que casualmente comparte tu tokenizer. Las advertencias honestas: los resultados son en un student Llama-3.2-1B específicamente, la disponibilidad de código no está confirmada en el writeup (revisa el repo arXiv), y estos son los números de benchmark propios de NVIDIA pendientes de reproducción independiente. La idea de matriz de proyección es lo suficientemente simple para reimplementar del paper si el código no se libera — que es la verdadera prueba de portabilidad.

NVIDIA X-Token: destilar entre tokenizers, GSM8k 2.56 a 15.54 sobre GOLD

Más noticias