DeepSeek V4满血版一体机，你恐怕买不起！

资讯组小编 • 文章来源: 微信公众号“特大号” • 2026年4月29日下午9:36 • 新闻

又被DeepSeek V4刷屏了吧，但toB老司机们更开心的是：歇了大半年的DeepSeek一体机又可以搞起来了。

但先别忙着高兴，V4对一体机的要求有点变态。

要求有多高？先给结论吧↓

跑Flash版：4卡高显存GPU起步。

跑Pro版满血：8×B200或者16×H200起步。

跑Pro满血+百万Token+多并发Agent+PD分离部署：建议32卡以上超节点。

以上均以N家为例，国产卡下面会逐个探讨。

这个配置是怎么算出来的？我们先交代一下基本面↓

DeepSeek V4有两个版本：

DeepSeek-V4-Flash：284B 总参数，13B 激活参数。

DeepSeek-V4-Pro：1.6T 总参数，49B 激活参数。

两个都是 MoE 模型，总参数很大，但每次只激活一部分专家。

而且，这次的放出来的 V4开源版版本还有个关键设计，采用FP4+FP8混合精度。

①最占空间的专家层（MoE experts）用FP4精度。

②对精度更敏感的注意力和稠密层（attention/dense）用精度更高的FP8。

为了帮助大家降低显存寻求，DeepSeek这次也是拼了。

Pro版如果全用FP8，大约需要1.6TB显存。

现在DeepSeek把最吃显存的MoE专家层压到FP4了，实际权重压力能降到1TB级别。

所以粗略估算：

V4-Flash权重占用：约180GB–260GB。

V4-Pro权重占用：约 1.0TB–1.4TB。

但很多老卡包括H20/H200以及很多国产卡，是不支持FP4精度的，还得用FP8，所以老卡要按照满额。

而且，真正跑生产，还要加KV Cache、运行时 buffer、通信 buffer、并发余量、推理框架开销……，这一揽子都不是省灯的油。

尤其Pro版还要百万上下文，上下文越长，KV Cache越吃资源。

01 / 如果你有N卡，该怎么配？

其实，著名推理引擎SGLang官方给出了推荐配置：

https://docs.sglang.io/cookbook/autoregressive/DeepSeek/DeepSeek-V4

DeepSeek-V4-Flash：

单节点4张H200/B200/GB200/GB300都可以跑。

据此延展：4×141GB级别GPU，比如H20，理论可跑。

同时，8×H200/H20/B200，适合一定并发。

DeepSeek-V4-Pro：

8×B200或者4×GB300

或者16×H200，用两台8卡机。（毕竟H200不支持FP4）

这是跑Pro的起步线，理论上16张141G显存版本的H20也ok。

如果是生产环境，长上下文、Think Max、多并发 Agent，那配置要求会进一步拉高：

16×B200：更稳。

32×B200：适合高并发和长上下文。

GB200 NVL72：旗舰满血方案。

多说一句，另一家推理引擎vLLM给出了更复杂的部署环境和对应配置，大家可以自己去看，（包括pd分离等）。

https://recipes.vllm.ai/deepseek-ai/DeepSeek-V4-Pro?features=tool_calling%2Creasoning%2Cspec_decoding&hardware=h100&strategy=pd_cluster

看到这你会发现，要是能有高端N卡真是太爽了，无论从算力还是精度上，足以保证V4飞起。

然鹅，你懂的……

所以，我们还是多寄希望于国产力量吧。

02 / 华为昇腾950PR能不能跑？

答案是肯定的。

毕竟DeepSeek V4在官方发布的时候已经cue过昇腾950了，这几乎相当于联合首发了。而且菊厂也官宣day0适配。

官方说的是超节点，我们算算跑起来需要几张卡。

公开报道显示，华为Ascend 950PR，配112GB HBM，内存带宽约 1.4TB/s，互联约2TB/s，并具备 1.56 PFLOPS FP4能力（菊厂这个MXFP4，比普通FP4精度更好）。

划重点，112GB HBM，MXFP4支持，这很夯，算一下要几张卡↓

16×Ascend 950PR：Pro 起步。

24×Ascend 950PR：Pro 更稳。

32×Ascend 950PR：百万 Token、多并发 Agent。

相信，菊厂和DeepSeek暗通款曲已久，适配和优化应该比较到位，接下来昇腾DS超节点怕是有一波大行情。

03 / 曙光scaleX40能不能跑？

能，而且形态也很对路。

scaleX40是40卡超节点，公开口径是5.62TB+ HBM、FP8总算力超过28 PFLOPS，Scale-up 全互连。

但估计不支持FP4精度（未见宣传），所以无法享受混合精度的红利。

跑Flash没问题。

跑Pro也很适合。

如果scaleX40对FP4/FP8和DeepSeek-V4的CSA/HCA 注意力做了适配，它也会是非常合适的国产一体机/超节点形态。

04 / 昆仑芯超节点能不能跑？

方向上也很适合跑。

昆仑芯超节点主打32/64 卡、柜内全互联、MoE 大模型优化。这个形态适合DeepSeek V4。

昆仑芯P900显存按照96GB，精度按照FP8来算（存疑），无论32卡还是64卡的昆仑芯超节点，都能扛起DeepSeek-V4-Pro。

32卡稳定跑，64卡高并发。当然，具体还要看优化和适配情况。

05 / 阿里真武810E如何？

阿里这款芯片公开规格里比较明确的是：96GB HBM2e、700GB/s 片间互联。

但目前没有看到明确的FP4/FP8官方精度表，从对标H20的宣传看，大概率是支持FP8的。

所以，算起来与昆仑芯类似，Pro满血版用32卡就能稳定跑。但阿里系的超节点规格较大，比如磐久128，云商自用可以，可能不太适合一般规模的企业落地。

另外，寒王也宣布了Day0支持DeepSeek V4，如果以其思元MLU590为例，单卡显存96GB，FP8精度。

推算起来情况与百度和阿里的芯片也基本相当，也是32卡可以稳定跑Pro的水准。

接下来，DeepSeek V4 Pro满血版的企业本地化落地，传统8卡机恐怕靠边站了，要么组团，要么让超节点上位！

所以，你准备好了吗？

本文来自转载微信公众号“特大号” ，观点仅代表作者本人，发现AI平台仅提供信息存储空间服务。
如若转载，请联系原作者；如有侵权，请联系编辑删除。

DeepSeek V4满血版一体机，你恐怕买不起！

其实，著名推理引擎SGLang官方给出了推荐配置：

DeepSeek-V4-Flash：

单节点4张H200/B200/GB200/GB300都可以跑。

据此延展：4×141GB级别GPU，比如H20，理论可跑。

相关推荐

Claude背后全是大厂老兵！Anthropic工程团队1680人画像曝光：谷歌系、12年经验、本硕为主

半年估值暴涨110亿美元，AI音频为什么比视频先赚到钱？

突发！ChatGPT直连OpenClaw，奥特曼祝您「捕虾愉快」

二代“豆包手机”上手体验：左手抖音右手瑞幸，让App们开始排队打工

断供OpenAI！Anthropic买下全球1/4开发者都在用的工具商

618观察｜千问想要电商主导权，但淘宝不让

发表回复