月之暗面與清華跨資料中心拆分 LLM prefill 與 decode，普通乙太網上 TTFT 下降 50%

大語言模型推論一直侷限在單機架內是有原因的。在 8×H200 實例上預填一個 32K token 的請求，會以約 60 Gbps 的速率產生 KV 快取。這個數字迫使 prefill 和 decode 必須留在同一機架，或者勉強同一資料中心，因為只有 RDMA 網路能承擔這種流量而不被拖垮。代價是：你在同一張 GPU 上既為密集計算也為高頻寬記憶體買單，而 decode 階段主要只需要後者。月之暗面（Moonshot AI）與清華在其 PrfaaS 論文（arxiv 2604.15039）中主張，這個「同位部署」的假設值得被重新審視。

PrfaaS，prefill-as-a-service 的縮寫，把長 prefill 傳送到專用的 H200 叢集，然後透過普通乙太網把 KV 快取運送到執行更便宜 H20 的本地 decode 叢集。三個要素讓傳輸變得可行。第一，混合注意力：Ring-2.5-1T 與 MiMo-V2-Flash 相比密集注意力等價物將 KV 狀態壓縮約 36 倍，把每請求的快取出口流量從約 60 Gbps 降到 5 Gbps。第二，逐層流水線讓生成與傳輸重疊，所以傳輸在 prefill 結束前就開始。第三，多連線 TCP 加主動壅塞監控把可用 VPC 頻寬跑滿（在 100 Gbps 連結上持續約 13 Gbps）。路由基於長度：19.4K token 以下留在本地，更長的請求走遠端 prefill，因為計算節省值得那一趟往返。

案例研究的數字很難忽視。在 32 張 H200 prefill 加 64 張 H20 decode 上，PrfaaS 比同構 H200 基準輸送量高出 54%，比樸素異構配置高出 32%。平均 TTFT 下降 50%，P90 TTFT 下降 64%。外推到 10,000 GPU 的資料中心，跨叢集聚合頻寬達到 1.8 Tbps。架構論點比跑分更大：地理分佈式 LLM 服務一直被 KV 傳輸卡住，若混合注意力加流水線 TCP 足以跨越這道坎，那麼你的 prefill GPU 該放哪裡的設計空間就一下子打開了。prefill 在一個區域，decode 在另一個區域，到處都是更便宜的晶片。

如果你在大規模跑長上下文推論，這篇論文有兩點值得拿你自己的堆疊來衡量。其一，19.4K token 的路由閾值並不神奇，它是 PrfaaS 特定計算差異開始回本的那個點，你的數字會不同。其二，混合注意力的壓縮比完全取決於你服務的是哪個模型家族；密集注意力模型拿不到免費的 36 倍。但更大的論斷——普通乙太網在快取被壓縮後就夠用於 KV 傳輸——是那種會改變「綁定資料中心」對推論服務意味著什麼的結果。

月之暗面與清華跨資料中心拆分 LLM prefill 與 decode，普通乙太網上 TTFT 下降 50%

更多新聞