A Zyphra lançou TSP — Tensor + Sequence Parallelism — uma estratégia de paralelismo que colapsa o que eram dois eixos ortogonais (TP shardando pesos, SP shardando ativações) num único eixo device-mesh. A escolha arquitetural que importa: cada GPU segura 1/D dos pesos do modelo *e* 1/D dos tokens de sequência, onde D é o tamanho do eixo. Memória de parâmetros e memória de ativações ambas caem pelo mesmo fator 1/D no mesmo hardware. A configuração validada: transformer decoder denso 7B (h=4096, 32 camadas, 32 cabeças Q/KV, FFN×4, bf16) em 1.024 GPUs AMD MI300X a 128K comprimento de sequência com D=8. Throughput reportado: 173M tokens/seg versus 66,3M pra baseline TP+SP pareada — uma melhoria de 2,6×.
A estratégia de comunicação é onde vive a substância de engenharia. Pra atenção: shards de pesos broadcast iterativamente, cada GPU os aplica aos seus tokens locais, depois tensores K/V fazem all-gather usando partição zigzag pra load balancing. Pra MLP: schedule em anel que circula shards de pesos via operações point-to-point, *eliminando* o all-reduce que TP padrão exige. Comparação de memória single-node a 128K tokens (8× MI300X): 38,8 GB/GPU sob TSP versus 70,0 GB sob TP simples e 85-140 GB sob várias variantes TP+SP. Esse headroom de memória é o que desbloqueia treinamento/inferência de contexto longo nesse tamanho de modelo denso nesse hardware. Paper em arxiv.org/pdf/2604.26294; writeup técnico em zyphra.com/post/tsp.
Dois sinais de ecossistema. Primeiro, o resultado foi validado em 1.024 MI300X — não em H100 — o que é consistente com a história neocloud mais ampla: o silício da AMD está aparecendo em clusters de pesquisa classe produção quando o stack de software é bom o bastante, e o da Zyphra aparentemente é. Segundo, a escolha arquitetural (shardar pesos e ativações no mesmo eixo em vez de eixos ortogonais) é o tipo de simplificação que abre novo espaço de design pra paralelismo. PTD-P (Megatron-LM) e FSDP têm sido os playbooks padrão por anos; TSP não os substitui, mas amplia o conjunto de combinações hardware/modelo onde shardagem dobrada pode ganhar de shardagem ortogonal. Se você rodou TP+SP em escala de modelo pequena-a-média em AMD ou NVIDIA, TSP vale um benchmark na sua config específica.
Pra devs treinando ou servindo modelos grandes, o take-home é concreto. Headroom de memória de 38,8 GB versus 70-140 GB a 128K contexto significa que você pode rodar contextos mais longos no mesmo hardware ou caber modelos maiores no mesmo orçamento de memória. O claim de 2,6× throughput é específico de config (1.024 MI300X, denso 7B, D=8); em escalas menores ou em H100/H200, os números vão diferir — leia o paper, rode na sua shape. O truque MLP-sem-all-reduce é portável: mesmo se você não adotar TSP inteiro, eliminar esse all-reduce no seu setup TP existente é o tipo de win que vale a pena tirar como otimização standalone. A Zyphra não lançou código à data desse writeup; é a próxima coisa a vigiar.
