文 | 影子备忘录
你有没有发现,最近的 AI 好像越来越“小气”了?
打开 Claude Code 写代码,没过多久弹窗提示“本周 Token 使用量已达限额的 90%”;用 Kimi 查资料,高峰期经常提示“算力不足,请稍后再试”;就连 Seedance 生成一个视频,排队时间也越来越长。
这不仅仅是网络卡顿,而是一场正在席卷全球的“Token 短缺”危机。
Token——AI 处理信息的最小单元,你可以理解为 AI 的“呼吸”。一次简单的问答消耗几个 Token,而让 AI 帮你写一份竞品分析报告、整理一周的工作日志,它就得“深呼吸”千百次。现在的问题是,全球 AI 的“肺活量”快不够用了。
一个叫 Token 的“新货币”,正在被挤兑
先看一组数据。
OpenAI 面向企业客户的 API 平台,Token 调用量从 2025 年 10 月的每分钟 60 亿次,飙升至 2026 年 3 月底的每分钟 150 亿次——不到半年,增长 150%。摩根士丹利的统计更加震撼:2026 年 1 月初,全球每周 Token 使用量还是 6.4 万亿次,到 3 月已经冲到 22.7 万亿次,三个月翻了两倍多。
国内市场同样疯狂。到 2026 年 3 月,国内日均 Token 调用量已突破 140 万亿,相比 2024 年初增长了 1000 多倍。主流平台日均 Token 消耗量较年初增长超 300%,部分头部平台的 API 调用配额在两周内被消耗殆尽。
需求侧烈火烹油,供给侧呢?
算力供给的调整周期受制于硬件生产(GPU 交付周期约6-9 个月)和数据中心建设(18-24 个月)的双重刚性约束,导致 2026 年 3 月算力市场出现“硬缺口”,部分地区算力溢价率突破 200%。
这已经不是什么“趋势”了。这是一场正在发生的资源挤兑,只是挤兑的不是银行的现金,而是 AI 的“呼吸权”。
Token 消耗量为何突然指数级飙升?
答案是智能体(Agent)AI 的爆发。
2026 年初,以 OpenClaw 为代表的智能体工具正式登场。过去的 AI 像个问答机器人,你问它答,一锤子买卖。
但智能体从“回答问题”升级到了“执行任务”:它可以自己打开文件夹、阅读文档、调用软件、填写表格、发送邮件。
这意味着什么?单次任务的算力消耗,比简单问答高出 10 到 100 倍。
华源证券首席分析师一针见血地指出:“OpenClaw 最核心的颠覆点,在于它把 AI 的价值衡量方式,从‘回答得像不像人’推进到‘事情办没办成’。”
智能体任务占整体 AI 算力消耗的比例,从 2025 年的 12% 飙升至 2026 年 Q1 的 47%。更值得关注的是,头部5% 的高复杂度任务消耗了超过 60% 的总算力资源。
简单说:AI 从“动嘴”进化到了“动手”。以前是打字员,现在变成了全能助理。问题是,这个全能助理的“伙食费”贵了至少一个数量级。
芯片、电力、人力:短缺这堵墙,至少三层
如果你觉得“算力不够”只是芯片买少了,那就把事情想简单了。
第一层:芯片制造。
英伟达的 GPU 要在台积电的晶圆厂里,用 ASML 的 EUV 光刻机一层一层刻出来。EUV 光刻机一年只产几十台,交付排队时间超过十八个月。GPU 离不开的 HBM 高带宽内存,产能同样有限。
大摩的预测很直接:当前 AI 算力需求的增速,是英伟达供给增速的 3 倍。供需之间的口子还在继续撕大。
第二层:电力。
一台装满 GPU 的服务器机柜,跑起来的功耗抵得上十几台家用空调同时运转。一个大型数据中心,每天吞掉的电够一座小型城市用。
大摩预测,2025 至 2028 年间美国数据中心将面临约 55 吉瓦(GW)的电力缺口。服务器供应链的 ODM 厂商坦言,现在最缺的不是订单,而是“三力”——电力、人力、财力,其中电力与人力最让厂商伤脑筋。
美国计划中的数据中心,有三分之一到一半正面临延期或取消,核心障碍不是芯片太贵,而是电力基础设施严重短缺——大型变压器、开关设备的交货期长达数年。
第三层:人力。
现在连建数据中心的人都不够了。技术工人短缺导致项目延期超三个月,甚至连建造数据中心的劳动力都成了瓶颈。
正如德州仪器技术专家指出的:现代高端 GPU 功耗已步入“千瓦”时代,整座数据中心大楼的规划必须看到吉瓦规模——“在处理器层面谈论千瓦功耗,意味着整座数据中心大楼的规划必须看到吉瓦规模,这几乎相当于一座传统核电站的完整发电量”。
这场 AI 大战,已经从“追逐 GPU”变成了“追逐千兆瓦电力”。甚至可以说,现在最大的瓶颈,就是**到处都是瓶颈**。
“Token 工厂”来了,但工厂还没建好
英伟达 CEO 黄仁勋在 2026 年 GTC 大会上抛出了一个新概念——“AI Token 工厂”。
他认为,未来的数据中心不再是存放文件的仓库,而是日夜不停运转的轰鸣工厂。它们生产的不再是传统产品,而是数字世界最核心的大宗商品:Token。
黄仁勋将 AI 产业拆解为能源→芯片→基础设施→模型→应用五层架构,而 Token 是贯穿五层的语言和货币。就像千瓦时让电力有了价格,桶让石油有了期货市场,Token 让 AI 经济有了可计量、可定价的单位。
这个比喻很美,但现实很残酷。
截至 2026 年全年及 2027 年部分可用电力配额已被全部预订一空,新数据中心短期内根本无法上线。H100 算力的全球实际利用率仅维持在 15%–18%**之间,大量算力处于空转状态。
国际能源署预测,到 2030 年全球数据中心总耗电量将突破 1000 太瓦时,超过日本全国的年发电总量。
“工厂”还没建好,订单已经排到三年后了。
你可能还记得,2024 年的 Token 还是“白菜价”。
厂商们把 Token 单价压到“厘”级,用补贴换用户增长。但到 2026 年,云厂商开始在 AI 算力、存储及模型调用服务上陆续调价。阿里云四天内三次调价,腾讯混元最高涨价 463%,百度智能云上调5% 至 30%。
海外同样涨声一片。亚马逊 AWSEC2 实例实施 15% 的价格上调,谷歌云 AI 计算实例价格上调 20% 至 50%。
算力租赁市场同样疯狂:英伟达 Blackwell 芯片每小时租用价格从 2.75 美元涨到 4.08 美元,两个月涨了 48%;H100 的一年期租赁合约价格从 1.70 美元涨到 2.35 美元/小时,涨幅近 40%。
云服务商 CoreWeave 将服务价格上调逾 20%,并要求小客户签订至少三年的长期合约。OpenAI 推出了“保障产能”服务,企业签订 1 至 3 年的长期合同,可以锁定价格并确保算力供应——换句话说,OpenAI 开始卖“算力期货”了。
有意思的是,虽然 Token 单价较 2023 年下跌了超过一个数量级,但调用它需要花的钱却越来越多了——因为消耗量的增长远快于单价的下降。
涨价潮背后,是算力从“水电气”蜕变为稀缺的硬通货。过去 20 年“算力只会越来越便宜”的逻辑,在 2026 年——暂时失效了。
“短缺卖家”吃肉,“短缺买家”挨打
华尔街的逻辑正在发生巨变。
现在头部的 AI 巨头,比如 Anthropic,创收速度不是按年算——是每周新增 25 亿美元的年化收入。Anthropic 年化营收从 2025 年底的 90 亿美元,在短短两个月内跃升至 140 亿美元,此后再度翻倍至 300 亿美元。
这背后是一道冷酷的财富方程式:谁是“短缺的卖家”,谁就有绝对的定价权。谁是“短缺的买家”,谁就只能挨打。
微软 CFO 坦言,GPU 等硬件组件价格上涨将推高全年资本开支约 250 亿美元,云算力供给紧张的局面“至少将贯穿整个 2026 年”。
微软、谷歌、亚马逊这些万亿美元级别的云厂商,为了不掉队,必须砸成百上千亿美元去买这些贵得要命的资源。存储涨价一倍,他们就得掏两倍的钱,但收益并不能马上翻倍——于是现金流被严重消耗,利润直接转移到了卖方的口袋里。
谁在吃肉?
英伟达的毛利率约为 75%,较 2019 年的 60% 大幅提升;台积电的毛利率也超过 60%,约为多数其他代工厂的两倍。最大利润正集中在产业链的瓶颈环节。
这不是泡沫,而是一场结构性的财富大转移。
你可能觉得,这是巨头之间的游戏,和我有什么关系?
看看身边就知道了。
一位高校博士生最近抱怨:“我难道是尊贵的会员吗?本周 Token 使用量已达到限额的 90%。”她为了写毕业论文,不得不在三个 AI 工具之间来回切换,省着用。
AI 编程工具的用户更憋屈:“我已经好几周没触达 Claude Code 的限额了,但这周大概 45 分钟就到上限了。”
这种场景让人想起二十年前的拨号上网时代。那时带宽紧缺且昂贵,开发者要尽量压缩图片、精简代码,生怕流量超额。如今,Token 正在重复“流量”的老路。
黄仁勋甚至预言,未来工程师将标配“年薪 +Token 预算”模式,Token 将成为硅谷招聘的核心筹码。
“下沉市场”的定义,可能也要变了——不再是买不起房、买不起包,而是用不起最好的 AI 工具。
写在最后
有个比喻一直在流传:“所有人都在谈论石油,但世界真正短缺的或许是 Token。”
以前,我们判断一个国家、一家公司强不强,看它的 GDP、市值、财报。未来,衡量实力的可能变成:它拥有多少 Token 的生产能力,它能持续生成多少有价值的 Token。
Token 正在成为数字世界的通用货币。但货币印出来了,谁来买单?
目前来看,AI 应用的商业化回报仍远落后于资本的狂热投入。全球算力基建投资在不断增加,算力短缺的状态据分析至少还将维持两年。
大摩预测,算力需求增速约为 NVIDIA 算力供给 CAGR 预测值的 3 倍,缺口将长期存在且持续扩大。高盛则预计到 2030 年,全球 Token 消耗量将较 2026 年水平增长 24 倍。
这场 Token 短缺,本质上是在回答一个更深层的问题:当 AI 从消费品变成基础设施,当 Token 从技术参数变成战略资源,整个人类社会的数字生存方式,将会如何重构?
而你我,正在这个过程之中——既是被挤压的“下沉用户”,也是这场变革的亲历者。
