国思软件 - 黄仁勋为什么停不下来？

　　文 | 深流研究所，作者 | 绛枫

　　2025 年 12 月，黄仁勋做客 Joe Rogan 播客，承认自己一直处于焦虑状态。他说了一句用了三十多年的老话——"英伟达离倒闭永远只有 30 天"，然后补了一句很少有人注意到的话：

　　"这不是口号，是真实感受，脆弱感和不确定感从未离开过，今天早上醒来的感觉和创业第一天没有区别。"

　　那个月底，英伟达以约 200 亿美元现金收购了 AI 芯片公司 Groq 的核心资产。

　　随后的三个月，黄仁勋开始了他职业生涯中可能最密集的一轮公开露面。

　　2026 年 1 月出席 CES 并发表演讲，他宣布 AI"正式接管物理世界"；随后飞往中国，在上海逛菜场、在深圳参加年会、拜访供应链。

　　2 月，在美国加州总部附近的炸鸡店，宴请 30 名 SK 海力士核心工程师；同月财报电话会上，提出"算力等于营收"。

　　3 月，他极其罕见地发表了一篇万字长文，随后在 GTC 大会做了两个多小时的主题演讲，两天后又坐在金融分析师面前开了一场闭门问答会；紧接着是 All-In Podcast 将近两小时的长谈；再然后是 Lex Fridman 播客两个半小时的深度对话。

　　仅在 GTC 结束后的一周内，黄仁勋至少接受了四场独立访谈。

　　一个年营收 2159 亿美元、毛利率超过 70%、芯片供不应求的公司的 CEO，为什么停不下来？

　　他在反复说什么？

　　如果把黄仁勋这三个月里所有公开发言放在一起看，一个很明显的变化浮现出来：他不再只谈 GPU 了。

　　过去几年的 GTC，舞台上的核心永远是新一代 GPU——多少个晶体管、多快的计算速度、比上一代强多少倍。这是英伟达的传统节目。

　　但 2026 年的 GTC 不一样。黄仁勋提了二十多次的词不是 GPU，是"AI 工厂"。

　　在 CES 上，他说"计算行业的每一层技术堆栈都在被重新构建"，还判断"所有 SaaS 公司都将变成 AaaS 公司"。在达沃斯他说的是："这是人类历史上规模最大的基础设施建设。"在财报电话会上他说的是："新的 AI 世界里，没有算力就没有 token，没有 token 就没有收入。"

　　把这些话串在一起，你会发现他不是在做产品发布，而是在重新定义一件事——英伟达是什么。

　　不是一家卖 GPU 的公司，而是一家"AI 工厂"。客户不是在买芯片，是在买一套完整的推理生产系统——进去的是电力，出来的是可以卖钱的 token。GPU 只是这座工厂的生产设备之一，而不是全部。

　　这个定义跟过去十年市场对英伟达的认知完全不同。过去十年，英伟达就是 GPU，GPU 就是英伟达。它的股价跟 GPU 出货量挂钩，它的估值逻辑按芯片公司来打。

　　黄仁勋过去三个月反复强调英伟达的新角色，这实际上是在做一次大规模的认知校准——不是对内部，是对华尔街、对客户、对整个产业。他在说：你们对英伟达的理解需要更新了。

　　为什么是现在？

　　这个时间点不是随机的。英伟达正站在一个由它创造，但也会被它颠覆的变化面前。

　　AI 行业的算力需求正在发生一次结构性的迁移：从训练转向推理。

　　训练是造模型——花几个月训完，一次性投入。推理是用模型——每一次 ChatGPT 回答问题、每一个 AI agent 执行任务、每一段 AI 生成的视频。推理是持续的、永不停歇的。黄仁勋在 GTC 上给了一个数字：两年内，英伟达平台上的 token 生成速率从 2200 万增长到了 7 亿，350 倍。摩尔定律同期只能带来 1.5 倍的提升。

　　推理是增长故事。但它有一个英伟达必须面对的事实：GPU 对推理的效率，不如对训练。

　　一次大语言模型推理包含两个阶段。预填充——一次性处理用户输入的整段文字，数据量大、高度并行，GPU 效率极高。解码——逐字生成回复，每生成一个 token，要重新读取模型全部参数但只做极少量计算。GPU 的成千上万个计算单元在解码时大量空转，瓶颈不是算力不够，而是数据搬运不够快。

　　这不是性能问题，是架构错配，用一台为大规模并行设计的机器去做逐步串行的活。

　　黄仁勋在 GTC 上释放了一个重要信号：并不是所有高价值推理负载都该继续由通用 GPU 独立承担，部分场景需要引入专门针对 decode 优化的硬件。

　　这也解释了英伟达为什么要押注 Groq 的资产和其对应的架构能力。

　　Groq 的 LPU 芯片架构跟 GPU 几乎完全相反：静态调度、确定性延迟、500MB SRAM 直接焊在芯片上。它在预填充和训练上完全不是 GPU 的对手。但在逐 token 解码这个 GPU 较弱的环节，LPU 的内存带宽是 150TB/秒，英伟达最新 Rubin GPU 是 22TB/秒，将近 7 倍。

　　GTC 上发布的 Groq 3 LPX 搭配 Vera Rubin GPU，在高交互性推理场景下效率是纯 GPU 方案的 35 倍。黄仁勋的建议配置是：如果你的工作负载主要是高吞吐的，100% GPU 够了。如果有大量编码和高价值 token 生成需求，每 1 到 4 个 Groq 机架搭配 1 个 GPU 机架。

　　但光有两种芯片不够。你还需要一个东西来决定——每一个推理请求进来时，预填充交给谁、解码交给谁、缓存放哪里、带宽怎么分。

　　这就是 Dynamo。

　　从卖芯片到卖工厂

　　Dynamo 是英伟达在 GTC 上跟 Groq 3 一起发布的。这个名字来自西门子在 1866 年发明的发电机。

　　它不是芯片，不是推理引擎，而是一套调度层软件——英伟达称之为"推理操作系统"。

　　AWS、Azure、Google Cloud、Oracle 同时宣布采用。

　　理解 Dynamo 为什么重要，需要先看清英伟达过去三十年的商业模式。

　　1999 年到 2006 年，英伟达卖游戏显卡。2006 年 CUDA 发布后，客户从游戏玩家扩展到科研机构和高性能计算中心。2012 年 AlexNet 之后，客户从科研机构扩展到科技巨头的 AI 数据中心。芯片越卖越贵——从几百美元的 GeForce 到几万美元的 H100，再到上百万美元的 GB200 NVL72 机架——但英伟达的角色始终没变：造芯片、卖芯片。客户买回去怎么搭系统、怎么做调度，是客户自己的事。

　　Dynamo 改变了这一点。

　　有了 Dynamo 之后，客户不只是买英伟达的 GPU 和 Groq 的 LPU——它们的调度、协同、任务分配全都运行在英伟达的软件上。英伟达不再只是卖零件，它开始提供整套工厂的运营系统。

　　如果把这件事对标到 PC 时代，英伟达过去的角色更像英特尔——芯片很强，但客户在芯片之上自建生态。Dynamo 让它开始向微软的位置移动——不只提供算力，而是定义算力如何被调度和消费。

　　黄仁勋在 GTC 上展示了他设想的定价模型：AI 推理服务分五级，从免费到每百万 token 150 美元。这个分层只有在异构调度（不同层级分配给不同芯片）的前提下才成立。Dynamo 是实现这种分层的基础设施。

　　他在达沃斯把 AI 比作"五层蛋糕"——能源、芯片、数据中心、模型、应用。他在 All-In Podcast 上反复解释"token 工厂经济学"。

　　所有这些表述指向的是同一件事：英伟达想卖的不再是芯片，而是工厂。不是一颗 GPU，而是包含 GPU、LPU、CPU、网络处理器、调度软件、定价体系在内的完整推理生产系统。

　　从卖零件到卖工厂——这是英伟达三十年来商业模式的第一次质变。

　　他以前赌过一次

　　黄仁勋在 Lex Fridman 播客上讲了一段 CUDA 早年的故事，是他此前很少公开讲的细节。

　　2006 年 CUDA 发布时，英伟达做了一个决定：把 CUDA 放进每一块 GeForce 消费显卡里。不管玩家需不需要通用计算，每块显卡都内置 CUDA 模块。

　　这个决定的代价是：每块 GeForce 的成本增加了 50%。当时英伟达的毛利率只有 35%。这笔支出几乎吞掉了全部利润。

　　市值从六七十亿美元跌到了 15 亿美元左右。

　　黄仁勋说他当时去跟董事会解释：消费者不会为 CUDA 买单，但如果 CUDA 能进入工作站和超级计算机领域，也许能回收利润。CUDA 最终实现了这个"也许"，但花了整整十年。

　　面对一个风险高、回报周期长的决策，英伟达为什么还是做了？他在播客里给出的逻辑是："计算平台的核心是开发者，开发者跟着安装基数走。"CUDA 放进 GeForce，意味着全世界每一台装了英伟达显卡的电脑都支持 CUDA。开发者只要写一套代码就能在所有这些机器上运行。

　　这就是后来 400 多万 CUDA 开发者、80% 以上 AI 训练芯片市场份额的源头。

　　现在，黄仁勋又做了一次类似的选择。Dynamo 是开源的——任何人都可以用。Groq 3 LPX 从交易落地到产品公开亮相，只过了三个月。英伟达在推理还没成为收入主力的时候就大举投入：200 亿美元收购 Groq、开发 Dynamo、构建异构推理架构。

　　在闭门会上，分析师问了一个直接的问题：推理在你的收入里占多少？黄仁勋没有给出具体数字。他的 2159 亿美元年营收里，大头仍然是训练 GPU。推理主导的那个未来，在自家的收入结构里还不是主角。

　　但他在用三个月的密集露面向全世界传递一个信号：英伟达已经在为那个未来全力押注了。

　　收获掌声，也直面质疑

　　CUDA 的赌注花了十年才回本。这一次会等多久，黄仁勋自己也不确定。但他不会停下来。

　　在这三个月的密集露面中，他一边收获掌声，一边直面质疑。

　　GTC 结束两天后的闭门会上，针对黄仁勋力推的"token 经济学"，有分析师直接问他：推理在你的收入里到底占多少？All-In Podcast 播客里，主持人 David Sacks 指出，英伟达 50 亿美元一座的 AI 工厂比竞争对手贵了近一倍，也有人问"云厂商自研芯片会不会替代英伟达"。而在达沃斯上，全球媒体更是把话题对准了"AI 泡沫论"。

　　有媒体甚至把他过去一年的角色总结为五个字：超级销售员。

　　这些质疑来自不同场合，不同的人，实际都在追问黄仁勋同一个问题：你描绘的那个未来是真的吗？还是你需要所有人相信它是真的？

　　黄仁勋很少回避质疑，甚至会主动回击。他是一个极度理性的人，传记作者威特跟了他两年，对他的评价是凶猛、无情、负责。然而，除了谈论行业趋势、公司愿景，黄仁勋最近也开始说起遗忘、无知、生死这类感性的话题。

　　过去三十年，他很少公开说过这些。如今，他会说"如果当初知道创办英伟达要面临多少痛苦，我永远不会做"。他也会说"希望死在工作岗位上"。

　　为什么停不下来？他在最新的 Lex Fridman 的播客上说了十个字，算是他的人生信条：别被解雇，别无聊，别死掉。然后他补了一句："这三件事每一件都是高风险的。"

黄仁勋为什么停不下来？

我们的产品

相关链接

关于我们

联系我们