
新智元报道

【新智元导读】DeepSeek 正用开源、降价和底层架构创新,重画 AI 硬件生态的成本曲线,把目标指向十万亿美元产业与 AGI 的星辰大海。
DeepSeek 最近动作频频。
先是 5 月 22 日,彭博社爆出他们正在推进 700 亿元人民币的融资,投前估值高达 450 亿美元。

同一天,DeepSeek 官宣 V4-Pro API 永久降价 75%——把促销价直接焊死成正价。
一边向投资人要钱,一边向开发者让利。这操作,多少有点让人迷糊。
那么问题来了,DeepSeek 到底要靠什么赚钱,而且还要赚很多很多钱?
毕竟,AGI 可不是能口嗨出来的。
这正是x博主@bookwormengr 最近研究的一个狠问题。
他在长文《DeepSeek's 10 trillion USD grand strategy》中提出一个非常大胆的判断:DeepSeek 真正的星辰大海,可能不是卖编程套餐,不是卖语音助手,而是参与塑造一个价值 10 万亿美元级别的 AI 硬件生态,并在这个生态里冲击万亿美元级估值。

仔细读完@bookwormengr 的这篇万字长文,你会发现:梁文锋不是疯子,他是棋手。
而且是高手,他下的是一盘价值 10 万亿美元的棋。
英雄之旅
一场反共识的技术长征
回顾 DeepSeek 的成长轨迹,用「英雄之旅」来形容不为过。
在所有人都在堆 Dense 模型、卷参数量的时候,DeepSeek 去啃最难训的 MoE(混合专家模型),用更少的计算量撬动更高的智能。
别人用 PPO 做强化学习,他们从第一性原理出发,发明了更便宜的 GRPO 算法。
别人还在讨论 RLHF 的天花板,他们已经跑通了 RLVR(基于可验证奖励的强化学习),把推理能力拉上了新台阶。
MLA、DSA(解耦稀疏注意力)、mHC(流形约束超连接)、CSA 和 HCA——这些都不是论文里的花拳绣腿,每一项都在回答同一个问题:怎样在有限的硬件条件下,榨出最大的AI算力?
英雄从来不是一开始就知道自己的使命。他在路上不断战斗、不断发现,最终找到了自己的终极宿命。
DeepSeek 的宿命,从来都不是卖 API 套餐。
一道有趣的数学题
KV Cache 的秘密
让我们从一个具体的数字开始讲这个故事。
打开 kvcache.ai 的在线计算器,输入 100 万 token 上下文、8bit KV 精度、16bit 索引精度,你会看到一组让人瞠目的对比:DeepSeek V4仅需5. 48GBHBM。

相比之下,其他顶级开源模型则动辄需要60GBHBM。
注意,DeepSeek V4 是一个 1.6 万亿参数的模型,体量远大于其他开源模型,KV Cache 占用却只有它们的零头。
这意味着 DeepSeek 可以把缓存命中的价格定到一个令人发指的低位——V4-Pro 缓存命中价仅 0.025 元/百万 Token,不到 Claude Sonnet 4.6 同类价格的3%,而且可以持续缓存数小时。
永久降价后,输入缓存未命中 3 元/百万 Token,输出 6 元/百万 Token,全部是原价的四分之一。

梁文锋两年前就说过 DeepSeek 的定价哲学:我们的原则是不贴钱,也不赚取暴利。
现在看来,他说的是实话——当你的 KV Cache 只有别人的十分之一,你的成本就是别人的零头。
但更深的问题是:这个红利到底流向了哪里?
十万亿美元的棋盘
硬件生态的重构
答案藏在三个缩写里:SSD、LPDDR、HBM。
第一层:SSD 与 NAND 闪存。KV Cache 被压缩到极小之后,可以高效地卸载(offload)到 SSD 上,等需要时再快速加载回 HBM。
DeepSeek 在 Dual Path 论文中还专门优化了从 SSD 加载 KV Cache 的速度。这直接减少了对昂贵 HBM 的依赖。
谁是 SSD 和 NAND 闪存的大玩家?DeepSeek 每压缩一分 KV Cache,就在为 NAND 和 SSD 创造一个庞大的新市场。
第二层:LPDDR 内存。SGLang 团队发表的研究表明,LPDDR 完全可以作为「权重暂存区」——模型权重先放在 LPDDR 里,需要时再流式传输到 HBM 中,大幅缓解 HBM 的容量压力。


DeepSeek 的 MoE 架构天然适配这个方案:专家数量多、权重可以 4bit 量化,流式加载非常高效。
谁在做 LPDDR?国产速度只落后 0.5 代,密度落后 1 代,追赶的脚步已经很近。
第三层:GPU/ASIC 的减压。Engram 模块用 LPDDR 中的哈希查表替代 Transformer 的前向传播计算,本质上是用每比特成本极低的「内存读取」替代每比特成本极高的「GPU 运算」。
这对中国 AI 芯片意义重大——由于 EUV 光刻机受限,国产 GPU 在原始 FLOPs 上落后。但如果你能用更多的便宜内存来替代更少的昂贵算力,那这种「换道超车」就变得合理了。
再加上 TileLang——DeepSeek 投资的跨硬件内核编译框架,可以让一套计算代码同时跑在多种硬件平台上,相当于绕过了「CUDA 护城河」。国产芯片厂商,都有可能因此获得生态层面的突破。
现在你明白了吗?DeepSeek 做的每一项技术创新,都在指向同一个方向:降低对顶级硬件的依赖,让中国现有的存储、芯片、网络生态变得足够用,甚至好用。

@bookwormengr 算了一笔大账:全球 AI 相关股票的总市值早已远超 10 万亿美元。
如果 DeepSeek 能帮助中国构建一个等量级的 AI 硬件生态,它自己在这盘棋里拿到 1 万亿美元的估值,完全合乎逻辑。

不赚快钱的逻辑
回头看 DeepSeek 的所有「不做」——不做多模态(V4.1 才开始试水图像和音频)、不做语音模型、不做视频模型、API 一降再降——就说得通了。
不是「不会赚钱」,而是「暂时不屑于赚这种钱」。
@bookwormengr 提出了一个精彩的类比:OpenAI 拿到了 AMD 和 Cerebras 的股权认购权证,只要达成算力采购里程碑就可以低价买入股票。这本质上是「用承诺换股权」——你帮我造芯片,我给你订单,我们一起把蛋糕做大。

DeepSeek 完全可以复制这个模式。
只不过它面对的不是 AMD 和 Cerebras,而是整条国产 AI 硬件产业链。
梁文锋是量化基金出身,被称为「Jim Simmon的忠实粉丝」。这样一个人,不可能不懂资本运作的精妙之处。
事实上,融资消息传出前,他已经在 2026 年 4 月完成了一次关键的股权调整——通过直接与间接持股控制公司约 84.29% 的股权,表决权 100%。

宁德时代投 DeepSeek——它要锁定未来 AI 数据中心的储能订单。京东、网易入局,各有各的战略诉求。
国家大基金下场,更是把 DeepSeek 定位成了国家级 AI 基础设施。
这些投资者看到的,不是一个卖 API 的小生意。他们看到的,是一个可能重塑全球 AI 硬件格局的战略支点。
终极使命
大规模强化学习与 AGI
但如果你以为 DeepSeek 的终点是「做中国 AI 硬件生态的发动机」,那可能还是低估了梁文锋。
据彭博社报道,梁文锋在投资者会议上明确表态:DeepSeek 的主要目标是推动技术边界,追求 AGI。

硬件生态是手段,AGI 才是目的。
逻辑是这样:当更多硬件选择变得可用、当算力需求本身被技术创新大幅压低,DeepSeek 就能以更低的成本启动更大规模的训练——特别是强化学习(RL)后训练和递归自我改进(RSI)。
大规模 RL 意味着模型需要生成海量的推理轨迹——万亿级 token 的生成量,计算成本极其恐怖。而 100 万上下文的长程任务,要求轨迹本身也足够长。
如果没有极致的硬件效率优化,这种训练根本跑不起来。
RSI 则更加大胆——让 AI 自己设计实验、执行实验、分析结果、改进自身。这是一个试错密度极高的过程,对算力的需求是无底洞。
但如果 DeepSeek 通过重构硬件生态把算力成本打下来,这条路就变得可行。
从 MoE 到 MLA,从 DSA 到 CSA,从 Engram 到 TileLang,从 KV Cache 压缩到 LPDDR 流式加载——所有这些创新,最终都汇聚到同一个终点:让 AGI 的训练从「烧不起」变成「烧得起」。
梁文锋与 DeepSeek 的星辰大海,从来不是海面上的浪花,而是洋流本身。
编辑:所罗门
