Nous Research lanzó Token Superposition Training (TST) esta semana — un método de pre-entrenamiento de dos fases que recorta el tiempo wall-clock de entrenamiento hasta 2.5× a FLOPs iguales sin cambiar la arquitectura del modelo, el optimizador, el tokenizer, la estrategia de paralelismo, o los datos de entrenamiento. El resultado titular es a la escala 10B-A1B mixture-of-experts: TST alcanza una pérdida final de entrenamiento más baja que una baseline a FLOPs iguales consumiendo 4.768 horas B200-GPU versus 12.311 de la baseline. La técnica está validada a cuatro escalas — 270M y 600M densas (formas SmolLM2 adaptadas al código de modelado Llama3), 3B densa (forma SmolLM3), y un MoE 10B-A1B en la familia Qwen3 — usando DCLM para los runs más pequeños y una mezcla 50/50 DCLM/FineWeb-Edu para el run MoE. Todos los runs usan AdamW con scheduling Warmup-Stable-Decay LR bajo TorchTitan + FSDP en 8 o 64 GPUs NVIDIA B200. El modelo final es arquitectónicamente idéntico al producido por pre-entrenamiento convencional; el comportamiento de inferencia no cambia.
El mecanismo se separa limpiamente en dos fases. Fase 1 (la fase de superposición, ejecutada para r ∈ [0.2, 0.4] del total de pasos de entrenamiento) segmenta la secuencia de entrada de longitud L en bolsas no-superpuestas de s tokens contiguos, luego colapsa cada bolsa en un solo "s-token" latente promediando los s embeddings. El transformer entonces procesa una secuencia de longitud L/s. Para mantener cada paso TST a FLOPs iguales a un paso estándar de entrenamiento, la longitud de secuencia de datos se incrementa en s× durante la fase de superposición — así el modelo ingiere s× más texto por unidad de compute, lo cual es la fuente de la ganancia de throughput. Del lado salida, cada posición latente predice la próxima bolsa de s tokens, con una pérdida multi-hot cross-entropy asignando masa de probabilidad 1/s a cada objetivo — implementable usando kernels CE fusionados existentes, sin necesidad de nuevos kernels o cabezas auxiliares. Fase 2 (recuperación) reanuda desde el checkpoint guardado con predicción next-token estándar para los 1-r pasos restantes. Un pico transitorio de pérdida de 1 a 2 nats aparece en la transición y se resuelve en unos pocos miles de pasos; a partir de ahí, el modelo recuperado cruza por debajo de la baseline equal-FLOPs y se queda.
El hedge honesto en el paper de Nous es la parte que más importa. El equipo presenta explícitamente tres vistas de comparación: equal-FLOPs (TST gana), equal-loss (TST gana), y equal-data (la baseline gana, porque el compute efectivo por token de datos de TST es más pequeño). Esta es la condición límite que determina dónde aplica TST — pre-entrenamiento compute-bound se beneficia, pre-entrenamiento data-bound no. Dado el debate industrial reciente sobre escasez de datos, más tiendas de las esperadas pueden descubrir que están data-bound en la práctica. Los resultados de ablación también son cargantes: una ablación donde los embeddings de entrada y la cabeza LM son re-inicializados aleatoriamente en la frontera Fase 2 hace saltar la pérdida final a 2.938 (peor que TST a 2.676 y la baseline estándar a 2.808). Las representaciones de Fase 1 no son descartables — las representaciones compartidas entre fases son lo que hace que TST funcione. Los mecanismos del lado entrada (promediado de tokens) y del lado salida (predicción de siguiente bolsa) superan independientemente la baseline y se combinan sin interferencia, sugiriendo dos mecanismos ortogonales en lugar de un solo truco. Benchmarks concretos a la escala MoE 10B-A1B: HellaSwag 71.2 vs 70.1 baseline, ARC-Easy 74.2 vs 73.8, ARC-Challenge 47.3 vs 46.3, MMLU 39.0 vs 37.4.
Para builders pre-entrenando cualquier cosa desde un SLM pequeño hasta un MoE de clase frontera: la pregunta práctica se vuelve si tu carga de trabajo es compute-bound (TST ayuda materialmente) o data-bound (TST te lastima porque consume más tokens de datos por FLOP). El setup de referencia de Nous — r entre 0.2 y 0.4, s entre 6 (a 3B) y 16 (a 10B-A1B) — es la parametrización de partida contra la cual ablacionar. La técnica se ubica en la misma clase más amplia que la multi-token prediction (MTP), pero es el miembro menos caro de esa clase: una sola cabeza de salida, reemplazo de objetivo solamente, kernels CE existentes. A diferencia de MTP, TST muestra ganancias consistentes a través de todas las escalas testeadas incluyendo modelos pequeños donde MTP ha demostrado degradar rendimiento. El paper está en arXiv 2605.06546 y la implementación debería lanzarse vía los canales estándar de Nous (el mismo patrón de publicación que Hermes Agent a principios de esta semana). Para tiendas con roadmaps de pre-entrenamiento activos, esta es la contribución de ingeniería rara que vale la pena ablacionar en tu propio pipeline dentro del mes.
