Zyphra 發布了 TSP —— Tensor + Sequence Parallelism —— 一種並行策略,把過去原本相互正交的兩條軸(TP 切權重、SP 切激活)摺疊到同一條 device-mesh 軸上。承重的架構選擇就在這一句:每張 GPU 同時持有 1/D 的模型權重 *和* 1/D 的序列 token,這裡 D 是這條軸的大小。這樣,參數顯存和激活顯存就在同一份硬體上、按同一個 1/D 因子一起下降。驗證用的具體配置是:7B 稠密 decoder-only transformer(h=4096,32 層,32 個 Q/KV 頭,FFN×4,bf16),跑在 1024 張 AMD MI300X 上,序列長度 128K,D=8。報告的吞吐:173M tokens/sec,對照同構 TP+SP 基線的 66.3M —— 提升 2.6×。
通訊策略才是工程實質所在。注意力部分:權重分片以 broadcast 方式逐次發出,每張卡把它套在自己持有的 token 上;K/V 張量再做 all-gather,但分區用的是「之字形」(zigzag)切法,把負載攤勻。MLP 部分:用「環形(ring)排程」,把權重分片以點對點的方式在卡間轉一圈,*這樣就把標準 TP 那一步 all-reduce 直接消掉了*。單節點顯存對比(8 張 MI300X、128K tokens):TSP 下每卡 38.8 GB,純 TP 下 70.0 GB,各種 TP+SP 變體下 85-140 GB。這部分省下來的顯存餘量,就是讓長上下文訓練/推論在這個稠密模型尺寸、這套硬體上變成可行的關鍵。論文:arxiv.org/pdf/2604.26294;技術部落格:zyphra.com/post/tsp。
兩條生態層面的訊號。第一,這次結果是在 1024 張 MI300X 上驗證的、不是在 H100 上 —— 這跟我前面講過的 neocloud 故事是一致的:只要軟體棧做到位,AMD 的矽就能出現在「正式環境級研究叢集」這一檔,而 Zyphra 這一份軟體棧顯然到位了。第二,這個架構選擇 —— 把權重和激活切到同一條軸上,而不是互相正交 —— 是那種為並行設計打開新設計空間的簡化。這些年裡,Megatron-LM 的 PTD-P 與 FSDP 一直是預設 playbook;TSP 不會取代它們,但它擴大了一個集合 ——「在哪些硬體 × 模型組合下,摺疊分片可以打敗正交分片」。如果你在 AMD 或 NVIDIA 上、用 TP+SP 跑中小型模型,TSP 在你具體的配置上值得跑一遍 benchmark。
對訓練或推論大模型的開發者,可落地的結論很具體。在 128K 上下文下,從 70-140 GB 單卡顯存壓到 38.8 GB,意味著你要麼在同一份硬體上跑更長的上下文,要麼在同一份顯存預算裡塞下更大的模型。2.6× 吞吐這個數字是配置相關的(1024 張 MI300X、7B 稠密、D=8);換到更小規模或者 H100/H200 上,數字會變 —— 讀原論文,在你自己的 shape 上跑一遍。「MLP 取消 all-reduce」這個小招是可移植的:就算你不打算整體切到 TSP,把現有 TP 配置裡那一步 all-reduce 砍掉,本身就值得作為一個獨立最佳化拿出來用。截至這篇報導為止,Zyphra 還沒放程式碼;那是下一步值得盯的事。
