Zyphra 发布了 TSP —— Tensor + Sequence Parallelism —— 一种并行策略,把过去原本相互正交的两条轴(TP 切权重、SP 切激活)折叠到同一条 device-mesh 轴上。承重的架构选择就在这一句:每张 GPU 同时持有 1/D 的模型权重 *和* 1/D 的序列 token,这里 D 是这条轴的大小。这样,参数显存和激活显存就在同一份硬件上、按同一个 1/D 因子一起下降。验证用的具体配置是:7B 稠密 decoder-only transformer(h=4096,32 层,32 个 Q/KV 头,FFN×4,bf16),跑在 1024 张 AMD MI300X 上,序列长度 128K,D=8。报告的吞吐:173M tokens/sec,对照同构 TP+SP 基线的 66.3M —— 提升 2.6×。
通讯策略才是工程实质所在。注意力部分:权重分片以 broadcast 方式逐次发出,每张卡把它套在自己持有的 token 上;K/V 张量再做 all-gather,但分区用的是「之字形」(zigzag)切法,把负载摊匀。MLP 部分:用「环形(ring)调度」,把权重分片以点对点的方式在卡间转一圈,*这样就把标准 TP 那一步 all-reduce 直接消掉了*。单节点显存对比(8 张 MI300X、128K tokens):TSP 下每卡 38.8 GB,纯 TP 下 70.0 GB,各种 TP+SP 变体下 85-140 GB。这部分省下来的显存余量,就是让长上下文训练/推理在这个稠密模型尺寸、这套硬件上变成可行的关键。论文:arxiv.org/pdf/2604.26294;技术博客:zyphra.com/post/tsp。
两条生态层面的信号。第一,这次结果是在 1024 张 MI300X 上验证的、不是在 H100 上 —— 这跟我前面讲过的 neocloud 故事是一致的:只要软件栈做到位,AMD 的硅就能出现在「生产级研究集群」这一档,而 Zyphra 这一份软件栈显然到位了。第二,这个架构选择 —— 把权重和激活切到同一条轴上,而不是互相正交 —— 是那种为并行设计打开新设计空间的简化。这些年里,Megatron-LM 的 PTD-P 与 FSDP 一直是默认 playbook;TSP 不会取代它们,但它扩大了一个集合 ——「在哪些硬件 × 模型组合下,折叠分片可以打败正交分片」。如果你在 AMD 或 NVIDIA 上、用 TP+SP 跑中小型模型,TSP 在你具体的配置上值得跑一遍 benchmark。
对训练或推理大模型的开发者,可落地的结论很具体。在 128K 上下文下,从 70-140 GB 单卡显存压到 38.8 GB,意味着你要么在同一份硬件上跑更长的上下文,要么在同一份显存预算里塞下更大的模型。2.6× 吞吐这个数字是配置相关的(1024 张 MI300X、7B 稠密、D=8);换到更小规模或者 H100/H200 上,数字会变 —— 读原论文,在你自己的 shape 上跑一遍。「MLP 取消 all-reduce」这个小招是可移植的:就算你不打算整体切到 TSP,把现有 TP 配置里那一步 all-reduce 砍掉,本身就值得作为一个独立优化拿出来用。截至这篇报道为止,Zyphra 还没放代码;那是下一步值得盯的事。
