Nous Research a publié Token Superposition Training (TST) cette semaine — une méthode de pré-entraînement en deux phases qui réduit le temps wall-clock d'entraînement jusqu'à 2,5× à FLOPs égaux sans changer l'architecture du modèle, l'optimiseur, le tokenizer, la stratégie de parallélisme ou les données d'entraînement. Le résultat manchette est à l'échelle 10B-A1B mixture-of-experts : TST atteint une perte d'entraînement finale plus basse qu'une baseline à FLOPs égaux tout en consommant 4 768 heures B200-GPU contre 12 311 pour la baseline. La technique est validée à quatre échelles — 270M et 600M dense (formes SmolLM2 adaptées au code de modélisation Llama3), 3B dense (forme SmolLM3), et un MoE 10B-A1B dans la famille Qwen3 — en utilisant DCLM pour les petits runs et un mélange DCLM/FineWeb-Edu 50/50 pour le run MoE. Tous les runs utilisent AdamW avec Warmup-Stable-Decay LR scheduling sous TorchTitan + FSDP sur 8 ou 64 GPU NVIDIA B200. Le modèle final est architecturellement identique à celui produit par un pré-entraînement conventionnel ; le comportement d'inférence est inchangé.

Le mécanisme se sépare proprement en deux phases. Phase 1 (la phase de superposition, exécutée pour r ∈ [0,2, 0,4] du total des étapes d'entraînement) segmente la séquence d'entrée de longueur L en sacs non-chevauchants de s tokens contigus, puis effondre chaque sac en un seul "s-token" latent en moyennant les s embeddings. Le transformer traite alors une séquence de longueur L/s. Pour garder chaque étape TST à FLOPs égaux à une étape d'entraînement standard, la longueur de séquence de données est augmentée de s× durant la phase de superposition — donc le modèle ingère s× plus de texte par unité de compute, ce qui est la source du gain de throughput. Côté sortie, chaque position latente prédit le prochain sac de s tokens, avec une perte multi-hot cross-entropy assignant une masse de probabilité 1/s à chaque cible — implémentable avec les kernels CE fusionnés existants, aucun nouveau kernel ou tête auxiliaire requis. Phase 2 (recovery) reprend depuis le checkpoint sauvegardé avec prédiction next-token standard pour les 1-r étapes restantes. Un pic de perte transitoire de 1 à 2 nats apparaît à la transition et se résout en quelques milliers d'étapes ; à partir de là, le modèle récupéré passe sous la baseline FLOPs-égaux et y reste.

Le hedge honnête dans le papier de Nous est la partie qui compte le plus. L'équipe présente explicitement trois vues de comparaison : FLOPs-égaux (TST gagne), perte-égale (TST gagne), et données-égales (la baseline gagne, parce que le compute effectif par token de données de TST est plus petit). C'est la condition limite qui détermine où TST s'applique — le pré-entraînement compute-bound en profite, le pré-entraînement data-bound non. Vu les discussions récentes de l'industrie sur la rareté des données, plus de boutiques que prévu pourraient découvrir qu'elles sont data-bound en pratique. Les résultats d'ablation sont aussi porteurs : une ablation où les embeddings d'entrée et la tête LM sont ré-initialisés aléatoirement à la frontière Phase 2 fait sauter la perte finale à 2,938 (pire que TST à 2,676 et la baseline standard à 2,808). Les représentations de Phase 1 ne sont pas jetables — les représentations partagées entre phases sont ce qui fait fonctionner TST. Les mécanismes côté entrée (moyennage de tokens) et côté sortie (prédiction du prochain sac) surpassent indépendamment la baseline et se combinent sans interférence, suggérant deux mécanismes orthogonaux plutôt qu'un seul truc. Benchmarks concrets à l'échelle MoE 10B-A1B : HellaSwag 71,2 contre 70,1 baseline, ARC-Easy 74,2 contre 73,8, ARC-Challenge 47,3 contre 46,3, MMLU 39,0 contre 37,4.

Pour les builders qui pré-entraînent n'importe quoi d'un petit SLM à un MoE de classe frontière : la question pratique devient si ta workload est compute-bound (TST aide matériellement) ou data-bound (TST te nuit parce qu'elle consomme plus de tokens de données par FLOP). Le setup de référence de Nous — r entre 0,2 et 0,4, s entre 6 (à 3B) et 16 (à 10B-A1B) — est la paramétrisation de départ contre laquelle ablater. La technique se trouve dans la même classe plus large que la multi-token prediction (MTP), mais c'est le membre le moins cher de cette classe : une seule tête de sortie, remplacement de cible seulement, kernels CE existants. Contrairement à MTP, TST montre des gains constants à toutes les échelles testées y compris les petits modèles où MTP a été montré dégrader la performance. Le papier est sur arXiv 2605.06546 et l'implémentation devrait être publiée via les canaux standards de Nous (le même pattern de publication que Hermes Agent plus tôt cette semaine). Pour les boutiques avec des roadmaps de pré-entraînement actives, c'est la contribution d'ingénierie rare qui vaut la peine d'être ablatée dans ton propre pipeline dans le mois.