中国团队突破瓶颈！不加GPU，万卡集群算力暴涨15%

资讯组小编 • 文章来源: 新智元 • 10小时前 • 新闻

GPU一块没加，代码一行没改，仅靠重构组网架构就让推理集群多挤出15%的算力！中美大模型厂商不约而同押注同一个判断：网络，才是AI基础设施的下一个主战场。

Vibe Coding太火了！

几乎所有人都一夜之间进入了「说人话就写代码」的新纪元。

问题来了，如何打造更极致的算力支持？

有人开始对网络动刀了。

就在本月，OpenAI联合NVIDIA、AMD、Intel、Microsoft、Broadcom五大巨头发布了MRC（Multipath Reliable Connection）网络协议，已部署在其最大规模的GB200超算集群上。

国内这边，智谱联合驭驯网络与清华大学，在GLM-5.1线上生产集群中完成了新一代组网架构ZCube的规模化落地——GPU一块没加，服务器一台没换，代码一行没改，推理吞吐直接多了15%！

更加夸张的是，交换机和光模块的硬件成本还砍掉了三分之一。

而且集群规模越大，这个优势越猛。万卡级别的集群，光网络硬件就能省下2.1亿到6.4亿元。

提出并在真实生产环境中验证这项技术的，是中国团队。

ZCube架构发表于网络领域最顶级学术会议ACM SIGCOMM 2025，被评价为「significantly change the way we think about and understand networking」——显著改变整个行业对网络的认知方式。

地址：https://z.ai/blog/zcube

一月之间，国内外一个在协议层发力，一个在架构层动刀。殊途同归，指向同一个判断：网络，已经成为超大规模AI基础设施的下一个主战场。

ZCube：推翻二十年的

「堆交换机」逻辑

过去几年，AI基础设施的军备竞赛只有一个维度：堆GPU。

更多、更快、更猛。

但当推理集群规模突破千卡、万卡，一个反直觉的现象开始出现——GPU的利用率不升反降。

原因很简单：大模型推理不是单兵作战，是协同打仗。

每处理一个用户请求，集群中的GPU需要高频、大量地互相传递中间数据（尤其是KV Cache）。

随着Prefill（处理输入）与Decode（生成输出）分离部署成为主流，数据在GPU之间的流向变得高度动态、不对称——有的链路挤满数据，有的链路空空如也。

智谱的线上实测数据给出了量化证据：在一个32卡规模的推理服务上做控制变量实验，仅把网络带宽从100Gbps提升到200Gbps，推理吞吐就提升了约19%，首Token响应时延下降了约22%。

而且这个规律随着集群规模扩大，会越来越显著——GPU的性能天花板，其实是被网络「锁住」的。

过去二十多年，全球数据中心普遍采用Fat-Tree / Clos架构组网。

这套方案的核心思路非常朴素：多层交换机一层一层堆上去，规模不够就加层。

互联网流量时代，这套逻辑运行良好。AI训练集群里，也基本够用。

但大模型推理是一种全新的流量模式。

在PD分离部署场景中，Prefill节点和Decode节点之间需要频繁传递KV Cache，不同请求的长度千变万化，数据流向毫无规律。

传统Clos架构面对这种流量时，一个结构性的死穴暴露了出来：流量会被拓扑关系天然地推向同几台交换机和同几条链路，形成热点堆积、队列反压、链路拥塞。

ROFT架构中，Leaf交换机之间容易出现流量负载不均

这是路网设计本身的问题。

ZCube的做法，简单说就是三个字：拆掉它。

设计的精妙之处在于：全网任意两张GPU之间，有且仅有一条最优路径。没有多路径选路的冲突，没有「车流挤到同一个路口」的结构性隐患。

拥塞不是被控制了，而是从架构层面大幅降低了结构性拥塞产生的概率。

打个比方：传统Clos是给一座已经堵死的城市装更多红绿灯；ZCube是重新规划了整张路网，让每辆车都有自己专属的最优路线——从源头上大幅减少了堵车的可能。

更值得关注的是网络直径。

ZCube的网络直径仅为2跳，全网GPU经过两台交换机即可互达，介于一层组网（1跳，规模受限）和传统二层组网（3跳，延迟高）之间——兼顾了低延迟与高扩展性。

硬件不换，代码不改，吞吐多15%

理论再漂亮，要看真刀真枪的生产数据。

智谱在运行GLM-5.1 Coding推理服务的千卡集群中，将原本部署的ROFT（Rail Optimized Fat-Tree）网络架构直接升级为ZCube。

这次改造并不是简单的「换根网线」——ZCube取消了传统Clos的Spine层，原有的布线模式、IP编址策略、路由策略和交换机配置全部无法复用，需要从头设计。

驭驯网络团队为此开发了ZCube控制器、机房布局设计工具和连线正确性检测程序等一整套自动化工具，才在极短时间内完成了大规模生产集群的改造。

控制变量极其干净：GPU型号不变、软件栈不变、业务代码一行不改，唯一的区别就是组网架构。

结果是这样的：

GPU平均推理吞吐提升15%以上——同样的硬件，每秒多服务15%的用户请求
TTFT P99（首Token尾延迟）下降40.6%——用户等待的「」最坏情况「」大幅改善
交换机与光模块硬件成本减少三分之一——花更少的钱，反而跑得更快

在当前算力紧缺、推理需求持续暴增的背景下，同样一堆硬件凭空多挤出15%的产能，这哪里是「优化」，这是「存量资产的效率重估」！

目前，该ZCube集群已在GLM-5.1 coding推理服务中稳定运行超过两周。

MRC vs ZCube

回到开头提到的MRC。

OpenAI联合五大芯片与云计算巨头发布的这套协议，本质上是一种多路径并发传输方案。

MRC和ZCube的关系，可以用一个比喻说清楚：

MRC优化的是「交通规则」——车已经上路了，通过更聪明的调度让车流更均匀，遇到事故能瞬间绕行。它在协议层发力，解决的是「已经出现拥塞后怎么办」。

ZCube重新规划的是「路网本身」——从拓扑设计上降低拥塞产生的概率，让每辆车都有唯一最优路线，从源头减少拥塞出现的机会。它在架构层动刀，解决的是「为什么会出现拥塞」。

前者是治病，后者是防病。技术路线不同，但双方同时在这个月发力，传递的信号高度一致：算力军备竞赛的下半场，不再只是比谁的GPU多，而是比谁能让这些GPU真正跑起来。

值得一提的是，MRC的发布还推动了另一个行业趋势：以太网正在加速替代InfiniBand成为AI集群的主流网络选择。

分析机构Dell’Oro Group的数据显示，2025年以太网在AI后端网络中的销售额和出货量已经全面超越InfiniBand。

MRC作为开放协议通过OCP发布，NVIDIA、AMD、Broadcom等厂商的800Gb/s网卡均已原生支持。

这意味着整个AI网络生态正在从封闭走向开放，从单一供应商走向多元竞争。

对于资本市场而言，这两大事件密集释放的信号同样值得关注：未来超大规模AI集群的组网采购逻辑将发生结构性变化——对高端交换机的需求将向「更少层级、更大端口密度」演进，对光模块的需求将向更高速率集中。

800G光模块、高密度以太网交换机相关产业链，有望迎来新一轮需求释放。

ZCube的扩展能力：一层交换机，连接数万GPU

ZCube还有一个被低估的特性：扩展性。

以当前主流配置计算（一层容量51.2T的交换机，128个400Gbps端口），ZCube仅用一层Leaf交换机就能构建连接16384块400Gbps网卡的完全连接网络。

如果使用更高容量的交换机，或者将ZCube网络划分为更多平面，可支持数万甚至数十万块GPU互联——仍然只需要一层交换机。

规模越大，ZCube相比传统架构省下的交换机和光模块就越多，性能优势也越明显——这是一条规模越大、越划算的曲线。

从「堆算力」到「挖效率」

过去几年，大模型行业最大的共识是Scaling Law——堆更多数据、更多算力、更大参数，模型就会更强。这个逻辑催生了万卡集群的军备竞赛。

但在2026年，一个新的共识正在浮现：与其无限堆GPU，不如让现有的GPU跑得更顺。

ZCube的实践证明，仅仅通过网络架构层面的系统性创新，就能在不增加任何GPU的前提下，撬动15%的推理吞吐提升。

随着推理规模继续向十万卡迈进，网络瓶颈只会随集群规模指数级加剧，而扁平化架构的优势也将同步放大。

更深层的变化在于：网络设计正在从「通用互联」走向「模型流量驱动的系统协同」。

网络不再只是连接GPU的底层管道，而正在升级为提升Token生产效率、系统稳定性和成本效率的核心能力。

智谱表示，未来将继续面向更大规模推理与训练集群探索新型智算网络架构。OpenAI的MRC也在持续迭代，其规格已通过OCP开放，正在成为行业基础标准。

一场关于AI基础设施底层架构的重构，正在全球范围内同步展开。

本文来自转载新智元，观点仅代表作者本人，发现AI平台仅提供信息存储空间服务。
如若转载，请联系原作者；如有侵权，请联系编辑删除。

赞 (0)

资讯组小编

微信扫一扫

微信扫一扫

没有AI能力的药厂，将不再被称作药厂

没有AI能力的药厂，将不再被称作药厂

上一篇 10小时前

顺丰邮政仓库干活的机器人，顺手拿了个具身高考第一

顺丰邮政仓库干活的机器人，顺手拿了个具身高考第一

下一篇 10小时前

扫码关注我们，了解最新AI资讯~

新闻

曝华为Mate90将搭载鸿蒙操作系统7.0拥有真正的端侧AI

资讯组小编
2026年4月22日
新闻

千问反超kimi跻身国内榜前三；Crushon飙升46名，AI陪伴赛道爆发 | AI产品周榜

AI新榜
2026年5月1日
新闻

家长“手搓”AI学习工具：人人都是开发者

资讯组小编
2026年4月15日
新闻

比Nano Banana还夯的生图模型泄露，截图不再是证据了 | 附提示词

资讯组小编
2026年4月19日
新闻

谷歌发布安卓 AI 系统，这就是苹果想象中的自己

资讯组小编
2026年5月13日
新闻

一人公司，开始闷声赚钱：预计年入1000万

资讯组小编
2026年4月13日

发表回复

登录后才能评论

一年裁掉千名开发者，育碧全力拥抱AI优化游戏研发
5小时前
分享到:

育碧长期深陷管理不善的经营困境，该公司最新财报证实，过去十二个月里，其已在持续的业务重组中裁员逾千名游戏开发人员。这家法国游戏发行商仍在寻求破局之法，如今开始借助人工智能，统筹旗下众多工作室优化游戏研发流程。据最新财务报告显示，育碧计划借助人工智能提升玩家游玩体验，同时激发研发团队的创作灵感。
金蝶发布企业AI操作系统Lingee：灵基 AI Agent
5小时前
分享到:

近日，金蝶发布企业AI操作系统Lingee：灵基 AI Agent，提供智能体的开发、编排、运行、治理与生态流通能力，帮助企业打造数字员工与超级个体，赋能财务、供应链、生产等核心业务场景智能化升级。
StoreClaw正式推出首款“AI电商增长引擎”
5小时前
分享到:

近日，StoreClaw正式发布了行业首个“AI电商增长引擎” ：不仅打通了亚马逊、Shopify、Genstore等主流电商平台，更把成熟电商团队的整套运营打法赋能每个卖家，实现一个AI大脑智能“接管”商家的全平台店铺。StoreClaw不只会提建议给策略，还能全流程落地执行，从搭店铺、搞选品、投广告、做内容、管库存等各个环节高效交付。
埃森哲：85%的Z世代高频使用AI工具
5小时前
分享到:

5月20日，埃森哲发布中国消费者洞察数据。数据显示，85%的Z世代高频使用AI工具，高于全年龄样本8个百分点；88% 的高收入群体高频使用生成式 AI；探索新方案时，高收入群体对几乎所有渠道的使用频率都高于全样本；其中询问AI工具（如豆包、元宝、DeepSeek等）的频率为65%，相较于全样本高出8%
ArtificialAnalysis：千问3.7问鼎国产模型冠军，全球前五
7小时前
分享到:

5月21日，三方机构ArtificialAnalysis公布了最新的全球大模型榜单，阿里新发布的旗舰模型Qwen3.7-Max得分56.6分，性能接近GPT、Claude、Gemini的最强模型，位列全球第五、国产第一。据了解，Qwen3.7-Max即将上线阿里云百炼对外提供API服务。
腾讯会议推出“AI同传”功能
7小时前
分享到:

5月21日，腾讯会议AI同传功能正式上线，参会者开启后，系统会将发言人的语音进行实时识别和翻译，并合成语音即时播报，传递到会议另一端，首期支持中英双向互译。此外，腾讯会议AI同传能做到时延低于3秒，发言与翻译几乎同步进行。
Alphabet斥资150亿美元在密苏里州新建数据中心
7小时前
分享到:

谷歌母公司Alphabet宣布斥资150亿美元，在美国密苏里州新弗洛伦斯兴建全新数据中心。随着人工智能催生云端与算力需求持续高涨，该项目也成为该州规模最大的科技基建项目之一。谷歌已在密苏里州签约拿下超10亿瓦新增发电装机容量，并携手公用事业企业Ameren，助力落地超5亿瓦配套电力产能。
马斯克或成全球首个万亿美元富翁
7小时前
分享到:

当地时间20日，美国太空探索技术公司SpaceX向美国证券交易委员会提交首次公开募股，也就是IPO的相关文件。《华尔街日报》报道称，该公司计划在本次IPO募集至少800亿美元资金，不过公司最新估值以及公司计划发行的股票数量仍是未知数。据报道，公司估值目标为1.5万亿美元至2万亿美元，如果市值超过1.7万亿美元，再加上马斯克持有的特斯拉股票，马斯克很有可能成为全球第一个万亿美元富翁，个人财富可能达13位数。
小米申请注册“XIAOMI MIMO ORBIT”“XIAOMI MIMO CLAW”商标
10小时前
分享到:

天眼查知识产权信息显示，近日，小米科技有限责任公司申请注册“XIAOMI MIMO ORBIT”“XIAOMI MIMO CLAW”商标，国际分类涉及科学仪器、网站服务，当前商标状态均为等待实质审查。小米科技有限责任公司成立于2010年3月，法定代表人为雷军，注册资本约14.8亿人民币，经营范围包括通讯设备销售、厨具卫具及日用杂品批发、厨具卫具及日用杂品零售等，由雷军、刘德共同持股。
有道全面开源“子曰4”多模态与TTS引擎
10小时前
分享到:

近日，网易有道宣布“子曰”大模型迎来4.0版本的全方位升级。“子曰4″正式迈入全模态时代，不仅全面支持文本、图片、音频的融合交互，有道更宣布将核心的“多模态模型”与“语音合成（TTS）模型”正式开源。

【阿里云】分钟级部署 Hermes/OpenClaw，官方镜像一键部署｜不限流量更省心｜助力低成本部署AI agent