一文读懂DeepSeek V4：1.6万亿参数、百万上下文和华为芯片

　文丨晓静、海丹

编辑丨苏扬

4 月 24 日消息，DeepSeek V4 预览版官宣上线。

根据 DeepSeek 的官方介绍，V4 系列包含两个 MoE 模型：DeepSeek-V4-Pro 总参数 1.6T、激活参数 49B，DeepSeek-V4-Flash 总参数 284B、激活参数 13B，两者均原生支持 100 万 token 上下文。

在 1M 上下文设置下，V4-Pro 的单 token 推理 FLOPs 只有 V3.2 的 27%，KV Cache 只有 10%；V4-Flash 更极端，分别压到 10% 和 7%。DeepSeek 自己给这代模型的定位是 “preview version”，官方在报告中明确表示，V4 的能力水平仍落后 GPT-5.4 和 Gemini-3.1-Pro，” 发展轨迹大约滞后前沿闭源模型 3 至 6 个月 “。

换句话说，V4 预览版是把长上下文成本重构 , 为下一阶段 test-time scaling 和长程任务铺路的基础设施发布，没有强调能力上的跨越升级。

01 两款模型、三档推理：V4 预览版到底是什么？

真正值得关注的是成本曲线。

在 1M token 的上下文设置下，V4-Pro 的单 token 推理 FLOPs 只有 V3.2 的 27%，KV Cache 只有 10%；V4-Flash 更极端，分别压到 10% 和 7%。换句话说，上下文从 V3.2 的 128K 扩到 V4 的 1M，理论上放大了近 8 倍，但单 token 算力需求反而下降了。

API 价格沿袭了 DeepSeek 一贯的 ” 打穿底 ” 思路。V4-Pro 每百万 token 输入 1 元（缓存命中）或 12 元（缓存未命中），输出 24 元；V4-Flash 分别为 0.2 元、1 元、2 元。

每款模型都提供三档推理强度：Non-think（直出）、Think High（常规深度思考）、Think Max（在 system prompt 里注入强指令、把上下文和输出长度拉满）。

Max 模式是为了榨出模型的能力上限—— V4-Pro-Max 在 HLE 测试中从 Think High 的 34.5 分升到 37.7 分，Apex Shortlist 测试中从 85.5 升到 90.2，代价是输出 token 翻倍。

根据 DeepSeek 披露的详细基准测试数据，在知识与推理类测试中，DeepSeek-V4-Pro-Max 在 Apex Shortlist（90.2%）和 Codeforces（Rating 3206）两项硬核推理 / 编程任务中拔得头筹，展现了极强的逻辑与算法能力；而 Gemini-3.1-Pro-High 在 SimpleQA Verified（75.6%）中领先，Claude 和 GPT 则在各项目中互有胜负，整体差距不大。

在智能体能力相关的测试中，四款模型在 SWE Verified 任务上打成平手（均为 80.6%），但 DeepSeek 在 Terminal Bench 2.0（67.9%）和 Toolathlon（51.8%）两项任务上同样表现突出，体现了在复杂指令执行与工具调用场景下的优势。

DeepSeek 表示，相比前代模型，DeepSeek-V4-Pro 的 Agent 能力显著增强。

” 使用体验优于 Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式，但仍与 Opus 4.6 思考模式存在一定差距。”

DeepSeek 官方强调，基于丰富的世界知识：V4-Pro 在世界知识测评中，大幅领先其他开源模型，仅稍逊于顶尖闭源模型 Gemini-Pro-3.1 —— Gemini-3.1-Pro-High 在 MMLU-Pro（91.0）、SimpleQA-Verified（75.6%）、GPQA Diamond（94.3%）等通用知识问答中领先。

另外，在数学、STEM、竞赛型代码的测评中，DeepSeek-V4-Pro 超越当前所有已公开评测的开源模型，取得了比肩世界顶级闭源模型的优异成绩，DeepSeek 将其称之为 ” 世界级的推理性能 “。

定位为经济性模型的 V4 Flash 在世界知识储备方面比 DeepSeek-V4-Pro 稍逊一筹，但也展现出了接近的推理能力。而由于模型参数和激活更小，相较之下 V4-Flash 能够提供更加快捷、经济的 API 服务。

在 Agent 测评中，DeepSeek-V4-Flash 在简单任务上与 DeepSeek-V4-Pro 旗鼓相当，但在高难度任务上仍有差距。

02 重写注意力机制：” 先压缩再挑着看 “

V4 最核心的技术改动在注意力层。

传统 Transformer 的注意力机制，每个 token 要和前面所有 token 都算一遍相似度。上下文从 10 万拉到 100 万，计算量增长的不是 10 倍，是 100 倍，这是长上下文一直跑不起来的根本原因。

V4 的做法是把注意力拆成两种，交替叠用。

一种叫 CSA（压缩稀疏注意力），它先把每 4 个 token 的 KV 缓存合并成一条摘要，再让每个 query 只在这些摘要里挑出最相关的 top-k 条去算注意力。相当于既压缩了 ” 要看的内容 “，又只挑 ” 值得看的 ” 去算。

另一种叫 HCA（重压缩注意力），它的压缩率更激进，把每 128 个 token 合并成一条，但对剩下的摘要做稠密注意力，不做稀疏挑选。

两种交替叠起来，再加一个滑动窗口分支处理 ” 离得近的 token 之间的细节依赖 “。这是一套 ” 粗粒度 + 细粒度、稀疏 + 稠密 ” 的组合拳。

把这套方案和 DeepSeek 过去两年的技术脉络连起来看，变化就清晰了：V2、V3 走的是参数稀疏化——总参数很大，但每 token 只激活一小部分专家；V4 在此之外又开了一条上下文稀疏化的路—— KV 压缩、top-k 选择、分层压缩率。

这是 DeepSeek 第一次把 ” 稀疏化 ” 的刀动到 Transformer 的核心结构里。

除了注意力层，V4 还有两处此前版本没动过的改造。一是把传统残差连接升级为 mHC（流形约束超连接），通过数学约束让深层网络的前向和反向传播更稳定；二是用 Muon 优化器替代大部分模块原本用的 AdamW，收敛更快、训练更稳。这是 DeepSeek 第一次在 MoE 之外，同时动 Transformer 的注意力、残差、优化器这三处核心结构。

DeepSeek-V4 和 DeepSeek-V3.2 的计算量和显存容量随上下文长度的变化

03 后训练换范式：把一堆专家 ” 蒸馏 ” 成一个模型

比架构改动更值得注意的是后训练方法的切换。

V3.2 用的是 ” 混合 RL”，一次性用强化学习优化多个目标。V4 换成了 ” 分化再统一 ” 的两步走：

第一步，针对数学、代码、Agent、指令跟随等不同领域，每个领域单独训练一个专家模型。这些专家先用该领域的高质量数据做监督微调，再用 GRPO 算法做强化学习，每个专家都在自己的细分赛道上跑到最优。

第二步，用一种叫 On-Policy Distillation（OPD，在策略蒸馏）的方法，把十多个领域专家 ” 合成 ” 回一个统一的学生模型。学生自己生成回答，然后对每个回答，去匹配 ” 最懂这个问题 ” 的专家的输出分布，通过 logit 级对齐，把能力吸收进来。

你可以将这种做法理解为，把一堆尖子生蒸馏了。

这套流程的工程难度在于：同时加载十多个万亿参数级的教师模型做在线推理不现实。DeepSeek 的做法是把所有教师权重统一卸载到分布式存储，只缓存每个教师最后一层的 hidden state，训练时按教师索引排序样本，保证任意时刻 GPU 显存里只驻留一个 teacher head。

换个说法，V4 的能力不再靠一个模型从头学，而是先让不同专家在自己的赛道跑到顶，再把它们收编进同一套权重里。这种思路绕开了传统 ” 混合 RL” 容易导致的能力互相干扰问题。

04 Agent 能力专项优化

DeepSeek-V4 针对 Claude Code 、OpenClaw、OpenCode、CodeBuddy 等主流的 Agent 产品进行了适配和优化，在代码任务、文档生成任务等方面表现均有提升。

DeepSeek 自述 V4-Pro 的 Agent 能力 ” 优于 Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式，但仍与 Opus 4.6 思考模式存在一定差距 “。

值得注意的是，V4 在 Agent 方向做了几处专项优化：后训练阶段把 Agent 作为与数学、代码并列的独立专家方向单独训练；工具调用格式从 JSON 换成带特殊 token 的 XML 结构，用来降低转义错误；跨轮次推理痕迹在工具调用场景下完整保留，不再像 V3.2 那样每轮清空；此外 DeepSeek 自建了一套名为 DSec 的沙箱平台，单集群可并发管理数十万个沙箱实例，用来支撑 Agent 强化学习训练和评测。

下图为 V4-Pro 在某 Agent 框架下生成的 PPT 内页示例：

05 昇腾在等 V4，V4 也在等昇腾

比起技术本身，V4 这次发布更受关注的还有与华为昇腾的协同。

V4 技术报告第 3.1 节专门写了一句：” 我们在英伟达 GPU 和华为昇腾 NPU 两个平台上均验证了细粒度 EP（专家并行）方案。” 这是 DeepSeek 官方第一次在正式文档中把华为昇腾和英伟达并列写进硬件验证清单。

报告同时披露，V4 的 MoE 专家权重和稀疏注意力索引器都采用 FP4 精度，而 FP4（mxFP4）恰好是华为 3 月发布的昇腾 950PR 芯片的原生支持精度。

按华为昇腾业务总裁张迪煊在 3 月华为中国合作伙伴大会上的公开披露，昇腾 950PR 是目前国内唯一支持 mxFP4 低精度格式的推理芯片，搭载华为自研的 HiBL 1.0 高带宽内存，容量 112GB、带宽 1.4TB/s，单卡性能目标是超过英伟达面向中国市场的 H20。面向训练场景的 950DT 计划今年四季度推出。

DeepSeek 在官宣文章中还表示：” 预计下半年昇腾 950 超节点批量上市并部署之后，Pro 版本的价格也会大幅度下调。”

本文来自转载腾讯科技，不代表发现AI立场，如若转载，请联系原作者；如有侵权，请联系编辑删除。