大語言模型推論一直侷限在單機架內是有原因的。在 8×H200 實例上預填一個 32K token 的請求,會以約 60 Gbps 的速率產生 KV 快取。這個數字迫使 prefill 和 decode 必須留在同一機架,或者勉強同一資料中心,因為只有 RDMA 網路能承擔這種流量而不被拖垮。代價是:你在同一張 GPU 上既為密集計算也為高頻寬記憶體買單,而 decode 階段主要只需要後者。月之暗面(Moonshot AI)與清華在其 PrfaaS 論文(arxiv 2604.15039)中主張,這個「同位部署」的假設值得被重新審視。

PrfaaS,prefill-as-a-service 的縮寫,把長 prefill 傳送到專用的 H200 叢集,然後透過普通乙太網把 KV 快取運送到執行更便宜 H20 的本地 decode 叢集。三個要素讓傳輸變得可行。第一,混合注意力:Ring-2.5-1T 與 MiMo-V2-Flash 相比密集注意力等價物將 KV 狀態壓縮約 36 倍,把每請求的快取出口流量從約 60 Gbps 降到 5 Gbps。第二,逐層流水線讓生成與傳輸重疊,所以傳輸在 prefill 結束前就開始。第三,多連線 TCP 加主動壅塞監控把可用 VPC 頻寬跑滿(在 100 Gbps 連結上持續約 13 Gbps)。路由基於長度:19.4K token 以下留在本地,更長的請求走遠端 prefill,因為計算節省值得那一趟往返。

案例研究的數字很難忽視。在 32 張 H200 prefill 加 64 張 H20 decode 上,PrfaaS 比同構 H200 基準輸送量高出 54%,比樸素異構配置高出 32%。平均 TTFT 下降 50%,P90 TTFT 下降 64%。外推到 10,000 GPU 的資料中心,跨叢集聚合頻寬達到 1.8 Tbps。架構論點比跑分更大:地理分佈式 LLM 服務一直被 KV 傳輸卡住,若混合注意力加流水線 TCP 足以跨越這道坎,那麼你的 prefill GPU 該放哪裡的設計空間就一下子打開了。prefill 在一個區域,decode 在另一個區域,到處都是更便宜的晶片。

如果你在大規模跑長上下文推論,這篇論文有兩點值得拿你自己的堆疊來衡量。其一,19.4K token 的路由閾值並不神奇,它是 PrfaaS 特定計算差異開始回本的那個點,你的數字會不同。其二,混合注意力的壓縮比完全取決於你服務的是哪個模型家族;密集注意力模型拿不到免費的 36 倍。但更大的論斷——普通乙太網在快取被壓縮後就夠用於 KV 傳輸——是那種會改變「綁定資料中心」對推論服務意味著什麼的結果。