文 | 深流研究所,作者 | 绛枫
2025 年 12 月,黄仁勋做客 Joe Rogan 播客,承认自己一直处于焦虑状态。他说了一句用了三十多年的老话——"英伟达离倒闭永远只有 30 天",然后补了一句很少有人注意到的话:
"这不是口号,是真实感受,脆弱感和不确定感从未离开过,今天早上醒来的感觉和创业第一天没有区别。"
那个月底,英伟达以约 200 亿美元现金收购了 AI 芯片公司 Groq 的核心资产。
随后的三个月,黄仁勋开始了他职业生涯中可能最密集的一轮公开露面。
2026 年 1 月出席 CES 并发表演讲,他宣布 AI"正式接管物理世界";随后飞往中国,在上海逛菜场、在深圳参加年会、拜访供应链。
2 月,在美国加州总部附近的炸鸡店,宴请 30 名 SK 海力士核心工程师;同月财报电话会上,提出"算力等于营收"。
3 月,他极其罕见地发表了一篇万字长文,随后在 GTC 大会做了两个多小时的主题演讲,两天后又坐在金融分析师面前开了一场闭门问答会;紧接着是 All-In Podcast 将近两小时的长谈;再然后是 Lex Fridman 播客两个半小时的深度对话。
仅在 GTC 结束后的一周内,黄仁勋至少接受了四场独立访谈。
一个年营收 2159 亿美元、毛利率超过 70%、芯片供不应求的公司的 CEO,为什么停不下来?
他在反复说什么?
如果把黄仁勋这三个月里所有公开发言放在一起看,一个很明显的变化浮现出来:他不再只谈 GPU 了。
过去几年的 GTC,舞台上的核心永远是新一代 GPU——多少个晶体管、多快的计算速度、比上一代强多少倍。这是英伟达的传统节目。
但 2026 年的 GTC 不一样。黄仁勋提了二十多次的词不是 GPU,是"AI 工厂"。
在 CES 上,他说"计算行业的每一层技术堆栈都在被重新构建",还判断"所有 SaaS 公司都将变成 AaaS 公司"。在达沃斯他说的是:"这是人类历史上规模最大的基础设施建设。"在财报电话会上他说的是:"新的 AI 世界里,没有算力就没有 token,没有 token 就没有收入。"
把这些话串在一起,你会发现他不是在做产品发布,而是在重新定义一件事——英伟达是什么。
不是一家卖 GPU 的公司,而是一家"AI 工厂"。客户不是在买芯片,是在买一套完整的推理生产系统——进去的是电力,出来的是可以卖钱的 token。GPU 只是这座工厂的生产设备之一,而不是全部。
这个定义跟过去十年市场对英伟达的认知完全不同。过去十年,英伟达就是 GPU,GPU 就是英伟达。它的股价跟 GPU 出货量挂钩,它的估值逻辑按芯片公司来打。
黄仁勋过去三个月反复强调英伟达的新角色,这实际上是在做一次大规模的认知校准——不是对内部,是对华尔街、对客户、对整个产业。他在说:你们对英伟达的理解需要更新了。
为什么是现在?
这个时间点不是随机的。英伟达正站在一个由它创造,但也会被它颠覆的变化面前。
AI 行业的算力需求正在发生一次结构性的迁移:从训练转向推理。
训练是造模型——花几个月训完,一次性投入。推理是用模型——每一次 ChatGPT 回答问题、每一个 AI agent 执行任务、每一段 AI 生成的视频。推理是持续的、永不停歇的。黄仁勋在 GTC 上给了一个数字:两年内,英伟达平台上的 token 生成速率从 2200 万增长到了 7 亿,350 倍。摩尔定律同期只能带来 1.5 倍的提升。
推理是增长故事。但它有一个英伟达必须面对的事实:GPU 对推理的效率,不如对训练。
一次大语言模型推理包含两个阶段。预填充——一次性处理用户输入的整段文字,数据量大、高度并行,GPU 效率极高。解码——逐字生成回复,每生成一个 token,要重新读取模型全部参数但只做极少量计算。GPU 的成千上万个计算单元在解码时大量空转,瓶颈不是算力不够,而是数据搬运不够快。
这不是性能问题,是架构错配,用一台为大规模并行设计的机器去做逐步串行的活。
黄仁勋在 GTC 上释放了一个重要信号:并不是所有高价值推理负载都该继续由通用 GPU 独立承担,部分场景需要引入专门针对 decode 优化的硬件。
这也解释了英伟达为什么要押注 Groq 的资产和其对应的架构能力。
Groq 的 LPU 芯片架构跟 GPU 几乎完全相反:静态调度、确定性延迟、500MB SRAM 直接焊在芯片上。它在预填充和训练上完全不是 GPU 的对手。但在逐 token 解码这个 GPU 较弱的环节,LPU 的内存带宽是 150TB/秒,英伟达最新 Rubin GPU 是 22TB/秒,将近 7 倍。
GTC 上发布的 Groq 3 LPX 搭配 Vera Rubin GPU,在高交互性推理场景下效率是纯 GPU 方案的 35 倍。黄仁勋的建议配置是:如果你的工作负载主要是高吞吐的,100% GPU 够了。如果有大量编码和高价值 token 生成需求,每 1 到 4 个 Groq 机架搭配 1 个 GPU 机架。
但光有两种芯片不够。你还需要一个东西来决定——每一个推理请求进来时,预填充交给谁、解码交给谁、缓存放哪里、带宽怎么分。
这就是 Dynamo。
从卖芯片到卖工厂
Dynamo 是英伟达在 GTC 上跟 Groq 3 一起发布的。这个名字来自西门子在 1866 年发明的发电机。
它不是芯片,不是推理引擎,而是一套调度层软件——英伟达称之为"推理操作系统"。
AWS、Azure、Google Cloud、Oracle 同时宣布采用。
理解 Dynamo 为什么重要,需要先看清英伟达过去三十年的商业模式。
1999 年到 2006 年,英伟达卖游戏显卡。2006 年 CUDA 发布后,客户从游戏玩家扩展到科研机构和高性能计算中心。2012 年 AlexNet 之后,客户从科研机构扩展到科技巨头的 AI 数据中心。芯片越卖越贵——从几百美元的 GeForce 到几万美元的 H100,再到上百万美元的 GB200 NVL72 机架——但英伟达的角色始终没变:造芯片、卖芯片。客户买回去怎么搭系统、怎么做调度,是客户自己的事。
Dynamo 改变了这一点。
有了 Dynamo 之后,客户不只是买英伟达的 GPU 和 Groq 的 LPU——它们的调度、协同、任务分配全都运行在英伟达的软件上。英伟达不再只是卖零件,它开始提供整套工厂的运营系统。
如果把这件事对标到 PC 时代,英伟达过去的角色更像英特尔——芯片很强,但客户在芯片之上自建生态。Dynamo 让它开始向微软的位置移动——不只提供算力,而是定义算力如何被调度和消费。
黄仁勋在 GTC 上展示了他设想的定价模型:AI 推理服务分五级,从免费到每百万 token 150 美元。这个分层只有在异构调度(不同层级分配给不同芯片)的前提下才成立。Dynamo 是实现这种分层的基础设施。
他在达沃斯把 AI 比作"五层蛋糕"——能源、芯片、数据中心、模型、应用。他在 All-In Podcast 上反复解释"token 工厂经济学"。
所有这些表述指向的是同一件事:英伟达想卖的不再是芯片,而是工厂。 不是一颗 GPU,而是包含 GPU、LPU、CPU、网络处理器、调度软件、定价体系在内的完整推理生产系统。
从卖零件到卖工厂——这是英伟达三十年来商业模式的第一次质变。
他以前赌过一次
黄仁勋在 Lex Fridman 播客上讲了一段 CUDA 早年的故事,是他此前很少公开讲的细节。
2006 年 CUDA 发布时,英伟达做了一个决定:把 CUDA 放进每一块 GeForce 消费显卡里。不管玩家需不需要通用计算,每块显卡都内置 CUDA 模块。
这个决定的代价是:每块 GeForce 的成本增加了 50%。当时英伟达的毛利率只有 35%。这笔支出几乎吞掉了全部利润。
市值从六七十亿美元跌到了 15 亿美元左右。
黄仁勋说他当时去跟董事会解释:消费者不会为 CUDA 买单,但如果 CUDA 能进入工作站和超级计算机领域,也许能回收利润。CUDA 最终实现了这个"也许",但花了整整十年。
面对一个风险高、回报周期长的决策,英伟达为什么还是做了?他在播客里给出的逻辑是:"计算平台的核心是开发者,开发者跟着安装基数走。"CUDA 放进 GeForce,意味着全世界每一台装了英伟达显卡的电脑都支持 CUDA。开发者只要写一套代码就能在所有这些机器上运行。
这就是后来 400 多万 CUDA 开发者、80% 以上 AI 训练芯片市场份额的源头。
现在,黄仁勋又做了一次类似的选择。Dynamo 是开源的——任何人都可以用。Groq 3 LPX 从交易落地到产品公开亮相,只过了三个月。英伟达在推理还没成为收入主力的时候就大举投入:200 亿美元收购 Groq、开发 Dynamo、构建异构推理架构。
在闭门会上,分析师问了一个直接的问题:推理在你的收入里占多少?黄仁勋没有给出具体数字。他的 2159 亿美元年营收里,大头仍然是训练 GPU。推理主导的那个未来,在自家的收入结构里还不是主角。
但他在用三个月的密集露面向全世界传递一个信号:英伟达已经在为那个未来全力押注了。
收获掌声,也直面质疑
CUDA 的赌注花了十年才回本。这一次会等多久,黄仁勋自己也不确定。但他不会停下来。
在这三个月的密集露面中,他一边收获掌声,一边直面质疑。
GTC 结束两天后的闭门会上,针对黄仁勋力推的"token 经济学",有分析师直接问他:推理在你的收入里到底占多少?All-In Podcast 播客里,主持人 David Sacks 指出,英伟达 50 亿美元一座的 AI 工厂比竞争对手贵了近一倍,也有人问"云厂商自研芯片会不会替代英伟达"。而在达沃斯上,全球媒体更是把话题对准了"AI 泡沫论"。
有媒体甚至把他过去一年的角色总结为五个字:超级销售员。
这些质疑来自不同场合,不同的人,实际都在追问黄仁勋同一个问题:你描绘的那个未来是真的吗?还是你需要所有人相信它是真的?
黄仁勋很少回避质疑,甚至会主动回击。他是一个极度理性的人,传记作者威特跟了他两年,对他的评价是凶猛、无情、负责。然而,除了谈论行业趋势、公司愿景,黄仁勋最近也开始说起遗忘、无知、生死这类感性的话题。
过去三十年,他很少公开说过这些。如今,他会说"如果当初知道创办英伟达要面临多少痛苦,我永远不会做"。他也会说"希望死在工作岗位上"。
为什么停不下来?他在最新的 Lex Fridman 的播客上说了十个字,算是他的人生信条:别被解雇,别无聊,别死掉。然后他补了一句:"这三件事每一件都是高风险的。"
