Zyphra ha lanzado TSP — Tensor + Sequence Parallelism — una estrategia de paralelismo que colapsa lo que eran dos ejes ortogonales (TP shardeando pesos, SP shardeando activaciones) sobre un solo eje device-mesh. La elección arquitectónica que importa: cada GPU sostiene 1/D de los pesos del modelo *y* 1/D de los tokens de secuencia, donde D es el tamaño del eje. Memoria de parámetros y memoria de activaciones ambas caen por el mismo factor 1/D sobre el mismo hardware. La configuración validada: transformer decoder denso 7B (h=4096, 32 capas, 32 cabezas Q/KV, FFN×4, bf16) sobre 1.024 GPUs AMD MI300X a 128K longitud de secuencia con D=8. Throughput reportado: 173M tokens/seg versus 66,3M para la baseline TP+SP apareada — una mejora de 2,6×.
La estrategia de comunicación es donde vive la sustancia de ingeniería. Para atención: shards de pesos broadcast iterativamente, cada GPU los aplica a sus tokens locales, luego tensores K/V se hacen all-gather usando partición zigzag para load balancing. Para MLP: schedule en anillo que circula shards de pesos vía operaciones point-to-point, *eliminando* el all-reduce que TP estándar requiere. Comparación de memoria single-node a 128K tokens (8× MI300X): 38,8 GB/GPU bajo TSP versus 70,0 GB bajo TP simple y 85-140 GB bajo varias variantes TP+SP. Ese headroom de memoria es lo que desbloquea entrenamiento/inferencia de contexto largo a este tamaño de modelo denso sobre este hardware. Paper en arxiv.org/pdf/2604.26294; writeup técnico en zyphra.com/post/tsp.
Dos señales de ecosistema. Primera, el resultado fue validado sobre 1.024 MI300X — no sobre H100 — lo que es consistente con la historia neocloud más amplia: el silicio de AMD está apareciendo en clusters de investigación clase producción cuando el stack de software es lo bastante bueno, y el de Zyphra aparentemente lo es. Segunda, la elección arquitectónica (shardear pesos y activaciones sobre el mismo eje en vez de ejes ortogonales) es el tipo de simplificación que abre nuevo espacio de diseño para paralelismo. PTD-P (Megatron-LM) y FSDP han sido los playbooks por defecto por años; TSP no los reemplaza, pero amplía el conjunto de combinaciones hardware/modelo donde shardeo plegado puede ganar a shardeo ortogonal. Si has corrido TP+SP a escala de modelo pequeña-a-media en AMD o NVIDIA, TSP vale un benchmark sobre tu config específica.
Para devs entrenando o sirviendo modelos grandes, el take-home es concreto. Headroom de memoria de 38,8 GB versus 70-140 GB a 128K contexto significa que puedes correr contextos más largos sobre el mismo hardware o caber modelos más grandes en el mismo presupuesto de memoria. El claim de 2,6× throughput es específico de config (1.024 MI300X, denso 7B, D=8); a escalas más pequeñas o sobre H100/H200, los números diferirán — lee el paper, córrelo sobre tu shape. El truco MLP-sin-all-reduce es portable: aún si no adoptas TSP entero, eliminar ese all-reduce en tu setup TP existente es el tipo de win que vale la pena sacar como optimización standalone. Zyphra no ha lanzado código a la fecha de este writeup; es la próxima cosa a vigilar.
