又被DeepSeek V4刷屏了吧,但toB老司机们更开心的是:歇了大半年的DeepSeek一体机又可以搞起来了。
跑Flash版:4卡高显存GPU起步。
跑Pro版满血:8×B200或者16×H200起步。
跑Pro满血+百万Token+多并发Agent+PD分离部署:建议32卡以上超节点。
以上均以N家为例,国产卡下面会逐个探讨。
DeepSeek-V4-Flash:284B 总参数,13B 激活参数。
DeepSeek-V4-Pro:1.6T 总参数,49B 激活参数。
两个都是 MoE 模型,总参数很大,但每次只激活一部分专家。
而且,这次的放出来的 V4开源版版本还有个关键设计,采用FP4+FP8混合精度。
①最占空间的专家层(MoE experts)用FP4精度。
②对精度更敏感的注意力和稠密层(attention/dense)用精度更高的FP8。
为了帮助大家降低显存寻求,DeepSeek这次也是拼了。
现在DeepSeek把最吃显存的MoE专家层压到FP4了,实际权重压力能降到1TB级别。
V4-Flash权重占用:约180GB–260GB。
V4-Pro权重占用:约 1.0TB–1.4TB。
但很多老卡包括H20/H200以及很多国产卡,是不支持FP4精度的,还得用FP8,所以老卡要按照满额。
而且,真正跑生产,还要加KV Cache、运行时 buffer、通信 buffer、并发余量、推理框架开销……,这一揽子都不是省灯的油。
尤其Pro版还要百万上下文,上下文越长,KV Cache越吃资源。
其实,著名推理引擎SGLang官方给出了推荐配置:
https://docs.sglang.io/cookbook/autoregressive/DeepSeek/DeepSeek-V4
DeepSeek-V4-Flash:
单节点4张H200/B200/GB200/GB300都可以跑。
据此延展:4×141GB级别GPU,比如H20,理论可跑。
同时,8×H200/H20/B200,适合一定并发。
或者16×H200,用两台8卡机。(毕竟H200不支持FP4)
这是跑Pro的起步线,理论上16张141G显存版本的H20也ok。
如果是生产环境,长上下文、Think Max、多并发 Agent,那配置要求会进一步拉高:
多说一句,另一家推理引擎vLLM给出了更复杂的部署环境和对应配置,大家可以自己去看,(包括pd分离等)。
https://recipes.vllm.ai/deepseek-ai/DeepSeek-V4-Pro?features=tool_calling%2Creasoning%2Cspec_decoding&hardware=h100&strategy=pd_cluster
看到这你会发现,要是能有高端N卡真是太爽了,无论从算力还是精度上,足以保证V4飞起。
毕竟DeepSeek V4在官方发布的时候已经cue过昇腾950了,这几乎相当于联合首发了。而且菊厂也官宣day0适配。
公开报道显示,华为Ascend 950PR,配112GB HBM,内存带宽约 1.4TB/s,互联约2TB/s,并具备 1.56 PFLOPS FP4能力(菊厂这个MXFP4,比普通FP4精度更好)。
划重点,112GB HBM,MXFP4支持,这很夯,算一下要几张卡↓
32×Ascend 950PR:百万 Token、多并发 Agent。
相信,菊厂和DeepSeek暗通款曲已久,适配和优化应该比较到位,接下来昇腾DS超节点怕是有一波大行情。
scaleX40是40卡超节点,公开口径是5.62TB+ HBM、FP8总算力超过28 PFLOPS,Scale-up 全互连。
但估计不支持FP4精度(未见宣传),所以无法享受混合精度的红利。
如果scaleX40对FP4/FP8和DeepSeek-V4的CSA/HCA 注意力做了适配,它也会是非常合适的国产一体机/超节点形态。
昆仑芯超节点主打32/64 卡、柜内全互联、MoE 大模型优化。这个形态适合DeepSeek V4。
昆仑芯P900显存按照96GB,精度按照FP8来算(存疑),无论32卡还是64卡的昆仑芯超节点,都能扛起DeepSeek-V4-Pro。
32卡稳定跑,64卡高并发。当然,具体还要看优化和适配情况。
阿里这款芯片公开规格里比较明确的是:96GB HBM2e、700GB/s 片间互联。
但目前没有看到明确的FP4/FP8官方精度表,从对标H20的宣传看,大概率是支持FP8的。
所以,算起来与昆仑芯类似,Pro满血版用32卡就能稳定跑。但阿里系的超节点规格较大,比如磐久128,云商自用可以,可能不太适合一般规模的企业落地。

另外,寒王也宣布了Day0支持DeepSeek V4,如果以其思元MLU590为例,单卡显存96GB,FP8精度。
推算起来情况与百度和阿里的芯片也基本相当,也是32卡可以稳定跑Pro的水准。
接下来,DeepSeek V4 Pro满血版的企业本地化落地,传统8卡机恐怕靠边站了,要么组团,要么让超节点上位!
本文来自转载微信公众号“特大号” ,不代表发现AI立场,如若转载,请联系原作者;如有侵权,请联系编辑删除。