Zyphra का TSP TP + SP को एक ही GPU axis पर तह करता है: 1,024 MI300X पर 2.6× throughput

Zyphra ने TSP जारी किया है — Tensor + Sequence Parallelism — एक parallelism strategy जो उन दो orthogonal axes (TP जो weights shard करता था, SP जो activations shard करता था) को एक ही device-mesh axis पर collapse कर देती है। मायने रखने वाला architectural choice: हर GPU 1/D model weights *और* 1/D sequence tokens रखता है, जहाँ D axis का size है। Parameter memory और activation memory दोनों एक ही hardware पर एक ही 1/D factor से गिरती हैं। Validated configuration: 7B dense decoder-only transformer (h=4096, 32 layers, 32 Q/KV heads, FFN×4, bf16) 1,024 AMD MI300X GPUs पर 128K sequence length के साथ D=8 पर। Reported throughput: 173M tokens/sec बनाम matched TP+SP baseline के 66.3M — 2.6× सुधार।

Communication strategy ही वह जगह है जहाँ engineering substance रहती है। Attention के लिए: weight shards iteratively broadcast होते हैं, हर GPU उन्हें अपने local tokens पर लागू करता है, फिर K/V tensors load balancing के लिए zigzag partition का उपयोग करते हुए all-gather होते हैं। MLP के लिए: एक ring schedule weight shards को point-to-point operations के ज़रिए घुमाता है, *standard TP को required all-reduce को ख़त्म करता है*। Single-node memory comparison 128K tokens पर (8× MI300X): TSP के तहत 38.8 GB/GPU बनाम plain TP के तहत 70.0 GB और विभिन्न TP+SP variants के तहत 85-140 GB। यह memory headroom ही वह है जो इस dense model size पर इस hardware पर लंबे-context training/inference को unlock करता है। Paper arxiv.org/pdf/2604.26294 पर; technical writeup zyphra.com/post/tsp पर।

दो ecosystem signals। पहला, परिणाम 1,024 MI300X पर validated था — H100 पर नहीं — जो broader neocloud कहानी से सुसंगत है: AMD का silicon production-class research clusters में दिख रहा है जब software stack पर्याप्त अच्छा हो, और Zyphra का स्पष्ट रूप से है। दूसरा, architectural choice (weights और activations को orthogonal axes के बजाय एक ही axis पर shard करना) उस तरह का सरलीकरण है जो parallelism के लिए नई design space खोलता है। PTD-P (Megatron-LM) और FSDP वर्षों से default playbooks रहे हैं; TSP उन्हें replace नहीं करता, पर hardware/model combinations के सेट को बढ़ाता है जहाँ folded sharding orthogonal sharding को हरा सकती है। अगर आपने AMD या NVIDIA पर small-to-medium model scale पर TP+SP चलाया है, TSP आपकी specific config पर एक benchmark pass लायक़ है।

बड़े models train या serve करने वाले devs के लिए, take-home ठोस है। 128K context पर 70-140 GB बनाम 38.8 GB memory headroom का मतलब है कि आप या तो same hardware पर लंबे contexts चला सकते हैं या same memory budget में बड़े models फ़िट कर सकते हैं। 2.6× throughput claim config-specific है (1,024 MI300X, dense 7B, D=8); छोटे scales या H100/H200 पर, numbers अलग होंगे — paper पढ़ें, अपने shape पर चलाएँ। MLP-without-all-reduce trick portable है: भले आप TSP को पूरी तरह adopt न करें, अपने मौजूदा TP setup में उस all-reduce को ख़त्म करना ऐसा win है जिसे standalone optimization के तौर पर निकालना सार्थक है। इस writeup की तारीख़ तक Zyphra ने code release नहीं किया है; अगली देखने वाली चीज़ वही है।

Zyphra का TSP TP + SP को एक ही GPU axis पर तह करता है: 1,024 MI300X पर 2.6× throughput

और समाचार