大语言模型推理一直局限在单机架内是有原因的。在 8×H200 实例上预填一个 32K token 的请求,会以约 60 Gbps 的速率生成 KV 缓存。这个数字迫使 prefill 和 decode 必须留在同一机架,或者勉强同一数据中心,因为只有 RDMA 网络能承担这种流量而不被拖垮。代价是:你在同一张 GPU 上既为密集计算也为高带宽内存买单,而 decode 阶段主要只需要后者。月之暗面(Moonshot AI)与清华在其 PrfaaS 论文(arxiv 2604.15039)中主张,这个"同位部署"的假设值得被重新审视。
PrfaaS,prefill-as-a-service 的缩写,把长 prefill 发送到专用的 H200 集群,然后通过普通以太网把 KV 缓存运送到运行更便宜 H20 的本地 decode 集群。三个要素让传输变得可行。第一,混合注意力:Ring-2.5-1T 与 MiMo-V2-Flash 相比密集注意力等价物将 KV 状态压缩约 36 倍,把每请求的缓存出口流量从约 60 Gbps 降到 5 Gbps。第二,逐层流水线让生成与传输重叠,所以传输在 prefill 结束前就开始。第三,多连接 TCP 加主动拥塞监控把可用 VPC 带宽跑满(在 100 Gbps 链路上持续约 13 Gbps)。路由基于长度:19.4K token 以下留在本地,更长的请求走远程 prefill,因为计算节省值得那一趟往返。
案例研究的数字很难忽视。在 32 张 H200 prefill 加 64 张 H20 decode 上,PrfaaS 比同构 H200 基线吞吐量高出 54%,比朴素异构配置高出 32%。平均 TTFT 下降 50%,P90 TTFT 下降 64%。外推到 10,000 GPU 的数据中心,跨集群聚合带宽达到 1.8 Tbps。架构论点比跑分更大:地理分布式 LLM 服务一直被 KV 传输卡住,若混合注意力加流水线 TCP 足以跨越这道坎,那么你的 prefill GPU 该放哪里的设计空间就一下子打开了。prefill 在一个区域,decode 在另一个区域,到处都是更便宜的硅片。
如果你在大规模跑长上下文推理,这篇论文有两点值得拿你自己的栈来衡量。其一,19.4K token 的路由阈值并不神奇,它是 PrfaaS 特定计算差异开始回本的那个点,你的数字会不同。其二,混合注意力的压缩比完全取决于你服务的是哪个模型家族;密集注意力模型拿不到免费的 36 倍。但更大的论断——普通以太网在缓存被压缩后就够用于 KV 传输——是那种会改变"绑定数据中心"对推理服务意味着什么的结果。
