普通网线也能跑万亿大模型！月之暗面抛出王炸架构，亲证：不用全买 H100！1T模型实测：延迟暴降64%！大模型推理“围城”攻破了！

编辑 | 云昭

在 AI 工程界，长文本推理一直是个“富贵病”。

为了让大模型回话快一点，厂商们不得不把数千颗昂贵的GPU塞进同一个机房，并配上天价的 InfiniBand 交换机。

原因只有一个：KVCache（键值缓存）太重了。 只要跨出机房、跨过普通网线，传输延迟就会瞬间拖垮系统，让推理变成“慢动作”。

难道算力只能在昂贵的“孤岛”上跳舞？

近日，月之暗面发表重磅论文，提出 PrfaaS（Prefill-as-a-Service，预填充即服务） 架构。他们用一组惊人的数据证明：即便没有天价网络，靠普通的以太网线，也能实现万亿参数模型的跨中心调度！

剑指大规模LLM推理挑战：KVCache带宽瓶颈

相信关注AI圈的朋友现在都已经知道了这个概念：PD 分离。

而月暗的这篇论文，简单理解，就是将剑锋指向了大规模 LLM 服务中非常实际的问题：

如何在不同数据中心之间、异构硬件环境下，高效地将 Prefill 和 Decode 分离，而不被 KVCache 传输带宽所限制。

过去，跨数据中心推理被视为“工程自杀”，是因为传统模型的 KVCache 像海啸一样，会瞬间挤爆带宽。

论文中指出了原因所在：传统的 PD 分离架构虽然把计算密集的 Prefill 和内存带宽密集的 Decode 分开，但 Prefill 阶段产生的大量 KVCache 必须通过高带宽网络（如 RDMA）快速传输给 Decode 节点，否则会阻塞推理。这导致：

论文指出，新型混合注意力模型（如 Kimi Linear、SWA + GQA）中，只有少数全注意力层产生随序列长度增长的 KVCache，多数线性复杂度层只产生固定大小的状态。

通过建模分析，团队发现：

KV Throughput（单位时间产生的 KVCache 大小）仅仅是稠密模型1/4，甚至最低可以达到 1/36。

普通网线也能跑万亿大模型！月之暗面抛出王炸架构，亲证：不用全买 H100！1T模型实测：延迟暴降64%！大模型推理“围城”攻破了！

这种数量级级别的 KVCache 减少，就好比：以前传输数据像是在搬运一整座山，现在只需快递一张光盘。堪比对 KVCache 来了一场算法级的“物理瘦身”。

这使得 KVCache 通过普通以太网跨数据中心传输成为可能。

那么，理论上可行之外，实际工程方面，PrfaaS 是怎么实现的呢？不得不说，团队确实是做到了“算法+系统”的双重创新。

PrfaaS-PD 架构的整体思路很清晰，即将本地 PD 集群和 PrfaaS 集群的处理职责区分开：

专用的 PrfaaS 集群：在高吞吐、成本更优的加速器上执行计算密集型长上下文 prefill（未命中前缀的缓存），并通过通用以太网将生成的 KVCache 流式传输到本地 PD 集群；

本地 PD 集群：处理短请求或已命中缓存等对带宽不友好的请求，负责 Decode。

注意：两者是通过普通以太网（如 VPC、专线）来传输 KVCache 的。

而专用 PrfaaS 集群的灵魂设计就在于：混合前缀缓存池（Hybrid Prefix Cache Pool）的设计。

虽然混合注意力模型的 KVCache 变小了，但类型却也多元了。

在混合模型中，线性注意力或 SWA 层的循环状态是请求级别的：它们的大小与输入长度无关，并且只有当缓存长度完全匹配时才能被复用。

相比之下，全注意力层的 KVCache 是块级别的：它们随输入长度线性增长，并支持部分前缀匹配。

这种异构性对传统的全层统一 KVCache 存储范式提出了挑战。

显然，混合前缀缓存池的设计解决的正是这个问题，同时也可以做到跨集群、跨数据中心的 KVCache 高效传输与复用。

篇幅关系，这里用简单一点的话来解释如何做到的：分开管理，内存统一。缓存池将线性状态和全注意力 KVCache 分开管理，但这些组具有对齐的块大小，允许所有组从一个共享的 KVCache 池中分配和释放块。

多说一嘴，这个缓存池是 Kimi 团队基于 vLLM 的混合 KVCache 管理器发明的。感兴趣的朋友可以翻阅相关的论文。

内置双尺度调度，避免推理卡顿

解决了这个问题之后，还要解决的则是调度问题。PrfaaS 并非天真地外发所有任务。对此，研究团队内置了聪明的“分流”逻辑：

选择性卸载：只有增量长度 > 阈值的请求才发往 PrfaaS，避免短请求浪费跨集群带宽。“短请求本地消化，长请求异地处理”。系统会自动识别：只有当文本足够长（比如超过 19.4K token），才派发给远端的高算力中心。
带宽感知：实时监控 egress 带宽和队列深度，动态调整路由。考虑缓存亲和性：如果某集群已有部分前缀缓存，优先使用，必要时跨集群传输缓存。

就像手机导航会避开拥堵路段，调度器会监控网速。如果两地之间的网线“堵车”了，它会自动调整路由，优先保证本地推理不卡顿。

此外，调度策略上，团队还给出了一种双时间尺度调度策略：