终等到DeepSeek V4:1.6万亿参数、百万上下文,牵手华为,价格依然"屠夫级"

  出品 | 《态度》栏目

  作者 | 袁宁

  编辑 | 丁广胜

  DeepSeek-V4,终于来了。

  这段时间,行业节奏已经快到有些失真。新模型一波接一波,参数、榜单、价格、长上下文、Agent、推理强度,几乎每隔几天就要重排一次座次。越是在这种密集更新里,DeepSeek 的沉默就越容易被放大。再叠加融资、扩张、下一阶段战略这些外围讨论,市场对它的期待,早就不只是“再发一个新模型”这么简单。

  所以,V4 这次上线,大家真正想知道的其实是两件事:

  第一,DeepSeek 还在不在第一梯队里。

  第二,它这次到底拿出了什么新东西。

  4 月 24 日,DeepSeek-V4 预览版官宣上线,同步开源。

  先说结论:V4 不是一代靠“能力全面跃升”来定义自己的模型。官方表示,相比前代模型,DeepSeek-V4-Pro 的 Agent 能力显著增强。在 Agentic Coding 评测中,V4-Pro 已达到当前开源模型最佳水平,并在其他 Agent 相关评测中同样表现优异。目前 DeepSeek-V4 已成为公司内部员工使用的 Agentic Coding 模型,据评测反馈使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但仍与 Opus 4.6 思考模式存在一定差距。

  DeepSeek-V4-Pro 在世界知识测评中,大幅领先其他开源模型,仅稍逊于顶尖闭源模型 Gemini-Pro-3.1。

  在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro 超越当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的优异成绩。

  那 V4 在做什么?一句话:它把长上下文的成本结构彻底重写了一遍。100 万 token 上下文成为标配,但单 token 的算力消耗反而大幅下降。这是一次基础设施级别的发布,为下一阶段的 test-time scaling 和长程 Agent 任务铺路。

  两个版本、百万上下文、三档推理,DeepSeek 这次最狠的还是价格

  这次 V4 一共两个版本。

  V4-Pro 是旗舰版,总参数 1.6T,激活参数 49B;V4-Flash 是轻量版,总参数 284B,激活参数 13B。两者都原生支持 1M 上下文,同时支持非思考模式和思考模式。

  更进一步,每个模型又分成三档推理强度:Non-think、Think High、Think Max。也就是说,这次 DeepSeek 给出的不只是两个模型,而是一整套可以按场景分层调用的能力结构。

  从产品上看,这个思路已经很明确了:Pro 负责冲能力上限,Flash 负责铺性价比;非思考负责效率,Max 负责榨干推理能力。

  官方也直接说了,“从现在开始,一百万上下文将是 DeepSeek 所有官方服务的标配。”这句话表面上是在强调上下文长度,实际上更重要的是它背后的意思:DeepSeek 不是想把 1M 当成一个展示参数,而是想把它做成标准配置。

  而标准配置能不能成立,关键从来都不是“写没写支持 1M”,而是成本。

  这次 V4 最值得注意的地方,也正是在成本曲线。按照官方披露的数据,在 1M 上下文设置下,V4-Pro 的单 token 推理 FLOPs 只有 V3.2 的 27%,KV Cache 只有 10%;V4-Flash 更激进,分别压到 10% 和7%。换句话说,虽然上下文从 128K 拉到了 1M,理论上放大接近 8 倍,但单 token 的推理成本并没有跟着爆炸,反而被打了下来。

  这一点其实比“百万上下文”本身更关键。因为过去很长一段时间,长上下文一直都更像一种能力展示:窗口越写越长,但真到实际调用时,价格、延迟、显存压力都很难看。V4 这次真正想证明的是,长上下文不一定只能做成贵族配置,它可以被改造成可供大规模调用的基础能力。

  这一点在价格上体现得非常直接。

  V4-Pro 每百万 token 输入价格是 1 元,输出是 12 元;V4-Flash 每百万 token 输入 0.2 元,输出 2 元。这个价格一出来,基本上还是那个熟悉的 DeepSeek 风格。

  也难怪不少用户第一反应还是那句老话:便宜,而且强。

  技术上动了三刀:注意力、残差、后训练

  V4 最核心的技术改动在注意力层。传统 Transformer 的注意力机制里,每个 token 要和前面所有 token 算一遍相似度。上下文从 10 万拉到 100 万,计算量增长的不是 10 倍,是 100 倍。

  V4 的做法是把注意力拆成两种,交替叠用。一种叫 CSA(压缩稀疏注意力),先把每 4 个 token 的 KV 缓存合并成一条摘要,再让每个 query 只在这些摘要里挑出最相关的 top-k 条去算。既压缩了"要看的内容",又只挑"值得看的"去算。另一种叫 HCA(重压缩注意力),压缩率更激进,把每 128 个 token 合并成一条,但对剩下的摘要做稠密注意力,不做稀疏挑选。两种交替叠起来,再加一个滑动窗口分支处理近距离 token 之间的细节依赖。这是一套"粗粒度 + 细粒度、稀疏 + 稠密"的组合拳。

  把这套方案放进 DeepSeek 过去两年的技术脉络里,变化就很清晰。V2、V3 走的是参数稀疏化,总参数很大,但每 token 只激活一小部分专家。V4 在此之外又开了一条上下文稀疏化的路,KV 压缩、top-k 选择、分层压缩率。这是 DeepSeek 第一次把"稀疏化"的刀动到 Transformer 的核心结构里。

  除了注意力层,V4 还改了两处之前没动过的地方。一是把传统残差连接升级为 mHC(流形约束超连接),通过数学约束让深层网络的前向和反向传播更稳定;二是用 Muon 优化器替代大部分模块原本用的 AdamW,收敛更快,训练更稳。同时动注意力、残差、优化器三处核心结构,在 DeepSeek 的历史上是第一次。

  比架构改动更值得注意的是后训练方法的切换。V3.2 用的是"混合 RL",一次性用强化学习优化多个目标。V4 换成了"分化再统一"的两步走。第一步,针对数学、代码、Agent、指令跟随等不同领域,每个领域单独训练一个专家模型——先用该领域高质量数据做监督微调,再用 GRPO 算法做强化学习,在各自的细分赛道上跑到最优。第二步,用 On-Policy Distillation(OPD,在策略蒸馏)把十多个领域专家"合成"回一个统一的学生模型。学生自己生成回答,然后对每个回答,去匹配"最懂这个问题"的专家的输出分布,通过 logit 级对齐把能力吸收进来。通俗地讲,就是把一堆尖子生的本事蒸馏进同一个人脑袋里。

  这套流程的工程难度极高:同时加载十多个万亿参数级的教师模型做在线推理不现实。DeepSeek 的做法是把所有教师权重统一卸载到分布式存储,只缓存每个教师最后一层的 hidden state,训练时按教师索引排序样本,保证任意时刻 GPU 显存里只驻留一个 teacher head。V4 的能力不再靠一个模型从头学到底,而是先让不同专家在各自赛道跑到顶,再把它们收编进同一套权重。这种思路绕开了传统混合 RL 容易导致的能力互相干扰问题。

  在 Agent 方向,V4 做了几处专项优化:后训练阶段把 Agent 作为与数学、代码并列的独立专家方向单独训练;工具调用格式从 JSON 换成带特殊 token 的 XML 结构,降低转义错误;跨轮次推理痕迹在工具调用场景下完整保留,不再像 V3.2 那样每轮清空。DeepSeek 还自建了一套名为 DSec 的沙箱平台,单集群可并发管理数十万个沙箱实例,专门支撑 Agent 强化学习训练和评测。V4 针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品进行了适配优化,在代码任务和文档生成任务上均有提升。

  融资、算力、昇腾,V4 背后还有 DeepSeek 的下一道现实题

  V4 这次发布,另一个绕不开的话题,是算力。

  DeepSeek 在说明里提到,受限于高端算力,当前 Pro 的服务吞吐仍然有限,预计下半年昇腾 950 超节点批量上市之后,Pro 的价格还会进一步大幅下调。它基本等于确认了两件事。

  第一,DeepSeek 这次确实已经把国产算力协同放进正式路线里了。

  第二,V4 当前的能力释放,还没有完全到位,背后依然受制于算力供给。

  昇腾表示,其一直同步支持 DeepSeek 系列模型,本次通过双方芯模技术紧密协同,实现昇腾超节点全系列产品支持 DeepSeek V4 系列模型。基于 DeepSeek V4-Pro 模型,在 8K 输入场景,昇腾 950 超节点可实现 TPOT 约 20ms 时单卡 Decode 吞吐 4700TPS。DeepSeek V4-Flash 模型,8K 长序列输入场景下可实现 TPOT 约 10ms 时单卡 Decode 吞吐 1600TPS。

  今天下午,16 点,华为昇腾还将在B站直播 DeepSeek V4 在其平台的首发。

  此前有消息称,DeepSeek 正以超过 100 亿美元估值寻求外部融资,计划募集不少于 3 亿美元资金。对一家过去长期强调独立性、相对克制资本叙事的公司来说,这种变化本身就很值得玩味。因为当模型行业进入更高密度的竞争之后,技术路线再强,也很难脱离算力、人才和现金流去单独讨论。

  从这个角度看,V4 其实也暴露出 DeepSeek 当前所处的位置:它在模型能力上仍然保持强竞争力,尤其在开源和高性价比这条线上依然非常突出;但与此同时,它也已经进入一个必须更现实地处理算力和资源配置的问题阶段。

  这点在多模态上体现得尤其明显。

  这次 V4 没有推出多模态版本,而多模态已经越来越成为头部模型厂商的“标配动作”。如果说 V4 展现的是 DeepSeek 仍然有能力在文本模型和 Agent 能力上继续往前推,那么它暂时没有补上的那一块,也同样说明公司还得在资源约束下做取舍。

  所以,怎么理解这次 V4?如果说过去外界对 DeepSeek 的期待,是它还能不能再做出一个“便宜又强”的模型;那么 V4 给出的回答是:它不仅还在这么做,而且正在试图把“便宜又强”这件事,进一步做成一种结构性的能力。

  至于再往后,DeepSeek 能不能补上多模态、能不能借融资解决算力瓶颈、能不能把 V4 这套 preview 架构真正打磨成熟,那就是下一阶段的问题了。