月之暗面与清华跨数据中心拆分 LLM prefill 与 decode，普通以太网上 TTFT 下降 50%

大语言模型推理一直局限在单机架内是有原因的。在 8×H200 实例上预填一个 32K token 的请求，会以约 60 Gbps 的速率生成 KV 缓存。这个数字迫使 prefill 和 decode 必须留在同一机架，或者勉强同一数据中心，因为只有 RDMA 网络能承担这种流量而不被拖垮。代价是：你在同一张 GPU 上既为密集计算也为高带宽内存买单，而 decode 阶段主要只需要后者。月之暗面（Moonshot AI）与清华在其 PrfaaS 论文（arxiv 2604.15039）中主张，这个"同位部署"的假设值得被重新审视。

PrfaaS，prefill-as-a-service 的缩写，把长 prefill 发送到专用的 H200 集群，然后通过普通以太网把 KV 缓存运送到运行更便宜 H20 的本地 decode 集群。三个要素让传输变得可行。第一，混合注意力：Ring-2.5-1T 与 MiMo-V2-Flash 相比密集注意力等价物将 KV 状态压缩约 36 倍，把每请求的缓存出口流量从约 60 Gbps 降到 5 Gbps。第二，逐层流水线让生成与传输重叠，所以传输在 prefill 结束前就开始。第三，多连接 TCP 加主动拥塞监控把可用 VPC 带宽跑满（在 100 Gbps 链路上持续约 13 Gbps）。路由基于长度：19.4K token 以下留在本地，更长的请求走远程 prefill，因为计算节省值得那一趟往返。

案例研究的数字很难忽视。在 32 张 H200 prefill 加 64 张 H20 decode 上，PrfaaS 比同构 H200 基线吞吐量高出 54%，比朴素异构配置高出 32%。平均 TTFT 下降 50%，P90 TTFT 下降 64%。外推到 10,000 GPU 的数据中心，跨集群聚合带宽达到 1.8 Tbps。架构论点比跑分更大：地理分布式 LLM 服务一直被 KV 传输卡住，若混合注意力加流水线 TCP 足以跨越这道坎，那么你的 prefill GPU 该放哪里的设计空间就一下子打开了。prefill 在一个区域，decode 在另一个区域，到处都是更便宜的硅片。

如果你在大规模跑长上下文推理，这篇论文有两点值得拿你自己的栈来衡量。其一，19.4K token 的路由阈值并不神奇，它是 PrfaaS 特定计算差异开始回本的那个点，你的数字会不同。其二，混合注意力的压缩比完全取决于你服务的是哪个模型家族；密集注意力模型拿不到免费的 36 倍。但更大的论断——普通以太网在缓存被压缩后就够用于 KV 传输——是那种会改变"绑定数据中心"对推理服务意味着什么的结果。

月之暗面与清华跨数据中心拆分 LLM prefill 与 decode，普通以太网上 TTFT 下降 50%

更多新闻