A Nous Research lançou o Token Superposition Training (TST) esta semana — um método de pré-treino de duas fases que corta o tempo wall-clock de treino até 2.5× a FLOPs iguais sem mudar a arquitetura do modelo, o otimizador, o tokenizer, a estratégia de paralelismo, ou os dados de treino. O resultado manchete é na escala 10B-A1B mixture-of-experts: o TST atinge uma perda final de treino mais baixa que uma baseline a FLOPs iguais enquanto consome 4.768 horas B200-GPU contra as 12.311 da baseline. A técnica é validada em quatro escalas — 270M e 600M densas (formas SmolLM2 adaptadas para o código de modelagem Llama3), 3B densa (forma SmolLM3), e um MoE 10B-A1B na família Qwen3 — usando DCLM para os runs menores e uma mistura 50/50 DCLM/FineWeb-Edu para o run MoE. Todos os runs usam AdamW com schedule Warmup-Stable-Decay LR sob TorchTitan + FSDP em 8 ou 64 GPUs NVIDIA B200. O modelo final é arquitetonicamente idêntico a um produzido por pré-treino convencional; o comportamento de inferência não muda.
O mecanismo se separa limpamente em duas fases. Fase 1 (a fase de superposição, executada para r ∈ [0.2, 0.4] do total de passos de treino) segmenta a sequência de entrada de comprimento L em bags não-sobrepostas de s tokens contíguos, então colapsa cada bag em um único "s-token" latente fazendo a média dos s embeddings. O transformer então processa uma sequência de comprimento L/s. Para manter cada passo TST a FLOPs iguais a um passo padrão de treino, o comprimento da sequência de dados é aumentado em s× durante a fase de superposição — então o modelo ingere s× mais texto por unidade de compute, o que é a fonte do ganho de throughput. No lado da saída, cada posição latente prediz a próxima bag de s tokens, com uma perda multi-hot cross-entropy atribuindo massa de probabilidade 1/s a cada alvo — implementável usando kernels CE fundidos existentes, sem precisar de novos kernels ou cabeças auxiliares. Fase 2 (recuperação) retoma a partir do checkpoint salvo com predição next-token padrão pelos 1-r passos restantes. Um spike transitório de perda de 1 a 2 nats aparece na transição e se resolve em alguns milhares de passos; a partir daí o modelo recuperado cruza abaixo da baseline equal-FLOPs e fica.
O hedge honesto no paper da Nous é a parte que mais importa. O time apresenta explicitamente três visões de comparação: equal-FLOPs (TST ganha), equal-loss (TST ganha), e equal-data (a baseline ganha, porque o compute efetivo por token de dados do TST é menor). Essa é a condição-fronteira que determina onde o TST se aplica — pré-treino compute-bound se beneficia, pré-treino data-bound não. Dada a discussão recente da indústria sobre escassez de dados, mais lojas que o esperado podem descobrir que são data-bound na prática. Os resultados de ablação também são carregados: uma ablação onde os embeddings de entrada e a cabeça LM são reinicializados aleatoriamente na fronteira Fase 2 faz a perda final saltar para 2.938 (pior que o TST a 2.676 e a baseline padrão a 2.808). Representações da Fase 1 não são descartáveis — representações compartilhadas entre fases são o que faz o TST funcionar. Os mecanismos do lado entrada (média de tokens) e do lado saída (predição da próxima bag) superam independentemente a baseline e se combinam sem interferência, sugerindo dois mecanismos ortogonais em vez de um truque só. Benchmarks concretos na escala MoE 10B-A1B: HellaSwag 71.2 vs 70.1 baseline, ARC-Easy 74.2 vs 73.8, ARC-Challenge 47.3 vs 46.3, MMLU 39.0 vs 37.4.
Para builders pré-treinando qualquer coisa de um SLM pequeno a um MoE de classe frontier: a pergunta prática vira se a sua carga de trabalho é compute-bound (TST ajuda materialmente) ou data-bound (TST te machuca porque consome mais tokens de dados por FLOP). O setup de referência da Nous — r entre 0.2 e 0.4, s entre 6 (a 3B) e 16 (a 10B-A1B) — é a parametrização de partida contra a qual ablacionar. A técnica fica na mesma classe mais ampla que a multi-token prediction (MTP), mas é o membro mais barato dessa classe: uma única cabeça de saída, só substituição de alvo, kernels CE existentes. Diferente do MTP, o TST mostra ganhos consistentes em todas as escalas testadas incluindo modelos pequenos onde o MTP foi mostrado degradar o desempenho. O paper está no arXiv 2605.06546 e a implementação deve ser lançada pelos canais padrão da Nous (o mesmo padrão de publicação do Hermes Agent no início desta semana). Para lojas com roadmaps de pré-treino ativos, essa é a contribuição de engenharia rara que vale a pena ablacionar no seu próprio pipeline dentro do mês.
