
新智元报道
编辑:好困桃子
去 GPU 化的浪潮,已经拦不住了!OpenAI 嫌英伟达太慢,Anthropic 砸 1486 亿投奔 TPU,老黄被迫 200 亿天价收购「叛徒」自救。如今,算力军备赛正式进入能效为王的新时代:谁先卡住「每焦耳每微秒」的极限,谁或许就是下一个十年的霸主。
再过两周,黄仁勋将站上 GTC 2026 的舞台。
他提前放了话:「我们准备了几款世界上前所未见的全新芯片。」
底气来自一份炸裂的成绩单——
英伟达 2026 财年年收入 2159 亿美元,净利润翻倍,数据中心业务三年翻了 13 倍。
在财报电话会上,CFO 直接甩出一个数字:客户已经部署了 9 吉瓦的 Blackwell 基础设施!

但诡异的一幕出现了。
财报发布当晚,英伟达盘后一度涨超4%。随后股价悄然转跌,次日直接低开低走,收跌 5.46%,一夜蒸发数千亿美元市值。
华尔街不是看不懂数字,是看懂了趋势。
前有 Anthropic 甩出 210 亿美元订单,全面采购基于谷歌 TPU 的算力系统;后有 Meta 跟谷歌签下数十亿美元芯片大单,大规模租用 TPU 训练模型。
为了给编程带来接近实时的响应体验,OpenAI 更是历史上首次将主力级产品 GPT-5.3-Codex-Spark,部署在了更低延迟与更低能耗的非 GPU 芯片 Cerebras 上。
英伟达最大的几个客户,正在集体分散筹码。

全球 AI 芯片中 GPU 架构和非 GPU 架构比例(数据来源:高盛全球投资研究部)
根据摩根大通的产能报告,谷歌计划在 2027 年部署 600 至 700 万颗 TPU,大部分供给 Anthropic、OpenAI、Meta 和苹果等外部客户。
高盛投资研究部的模型显示,全球 AI 服务器中非 GPU 芯片出货占比,将从 2024 年的 36% 升至 2027 年的 45%。
类似的,IDC 也预测,到 2028 年,中国非 GPU 服务器市场规模占比将逼近 50%。
GPU 的致命短板
一个更深层的转折正在发生:AI 的竞争焦点,正从单纯的算力规模,转向对能效比与延迟的极致追求。
过去拼谁卡多、谁集群大。
现在拼的是,同样花一块钱,谁能吐出更多 Token。
「每美元产生的 Token 数」正在取代峰值算力,成为衡量芯片商业价值的核心指标。
究其原因在于,GPU 的架构决定了,每次计算时数据都要在外部显存和计算单元之间来回搬运。
路径长、次数多,能耗就高、延迟就大。堆更多卡解决不了这个问题。
路透社爆料,OpenAI 已多次表达对英伟达芯片的「不满」——响应速度没达预期,在代码生成产品 Codex 上感受尤为明显。
压力迫使英伟达这条「巨龙」寻求改变。
图灵奖得主 David Patterson 教授在最新研究中指出,大模型每次 token 生成都绕不开数据搬运,而搬运能耗远高于计算本身。
未来的核心命题是「让数据离计算更近」。
为此,他给出了三个 AI 芯片的演进方向:近内存处理、3D 堆叠、低延迟互连。
实际上,这些都指向同一件事——用架构创新降低数据搬运的能耗和延迟。
换句话说就是,谁能用更低的能耗、更低的延迟跑通下一代模型,谁就能在未来十年的算力牌桌上占得先机。
谷歌 TPU 杀向商用市场
一直以来,谷歌 TPU 专供自家大模型训练和推理,外人用不到。
去年开始,谷歌把 TPU 推向了商用。
订单随即涌入。
博通 CEO 透露,Anthropic 下了 210 亿美元的大单;Meta 签下数十亿美元 TPU 租赁协议;潜在客户还包括苹果和已与 SpaceX 合并的 xAI。
原因不难理解。大模型进入规模化落地阶段,算力需求爆发、成本压力加剧,单一依赖 GPU 的瓶颈越来越明显。而谷歌 TPU 的性能,已经具备与顶级 GPU 分庭抗礼的实力。
2025 年推出的第七代 TPU,是谷歌迄今为止性能最高、可扩展性最强的 AI 芯片——
单芯片峰值算力 4614 TFLOPS(FP8 精度),最大集群 9216 颗芯片、总算力达 42.5 EFLOPS。
划重点:TPU v7 在同等算力输出下功耗仅为英伟达 B200 的 40% 至 50%。
不仅如此,谷歌自研的光电路交换机(OCS)技术,还让万卡级集群实现近乎线性的加速比。相比之下,传统 GPU 集群规模越大,通信损耗越严重;而 TPU 集群基本不吃这个亏。

Google TPU v5e、v5p、v6、v7 芯片关键性能对比
谷歌 TPU 崛起还有更为直接的例证:在 TPU 上训练的 Gemini 3,在多个权威基准测试中位居榜首,为业界顶尖模型之一。
回到成本账上。
TPU 凭借 AI 专用架构带来的2-4 倍能效优势,将大模型推理的综合成本相比 GPU 拉低 50% 以上。而这正是 Anthropic、Meta 们用订单投票的根本逻辑。
当下,大多数大模型企业已经在用 TPU+GPU 的组合来缓解成本压力。
去年 11 月,半导体研究机构 SemiAnalysis 对比大模型公司的采购成本后发现:与 OpenAI 相比,同时使用 TPU 与 GPU 的 Anthropic,在与英伟达谈判时拥有更强的议价权。
手里有 TPU,就多了一张跟老黄讨价还价的牌。未来头部 AI 公司大概率都会走「多芯片并行」路线。

OpenAI 与 Anthropic 购买算力的成本对比
性能跨越式提升,顶尖大模型规模化验证,头部公司主动布局——TPU 已从算力产业的补充路线,升级为主流路线。
英伟达一家独大的格局,正在被改写。

十年磨一剑
「TPU 之父」要造下一代 AI 芯片
2025 年底,英伟达斥资 200 亿美元,拿下 AI 芯片创企 Groq 的核心技术和团队。
这是英伟达史上最大的一笔交易,溢价近三倍。
Groq 创始人 Jonathan Ross,被称为「TPU 之父」,谷歌 TPU 的核心设计者之一。离开谷歌后,他创立 Groq 的目标很明确:做一颗超越谷歌 TPU 的芯片。
两者的差异在架构。
谷歌 TPU 走的是「固定架构+集群扩展」路线。
其中,芯片内部搭载固定计算单元,依托二维数据流运算;芯片间通过 3D Torus 拓扑实现高效互联。架构稳定,但灵活性有限。

谷歌 TPU 架构
Groq 的 TSP(Tensor Streaming Processor)则是一种「软件定义硬件」的数据流处理器。
其核心理念是,通过构建可重构的软硬件系统,在保持可编程性的同时,达到接近 ASIC 的极致性能。
具体来说,芯片内部做了功能切片化微架构设计,配合软件层的灵活配置,可根据不同任务实时调整计算逻辑和数据流路径。
同时,依托大容量片上 SRAM 及静态调度机制,显著提升了数据访存效率并降低搬运能耗。
美国 DARPA「电子复兴计划」(ERI)高度看好「软件定义硬件」方向,将其列为国家级战略核心。这也是 Groq 被称为「高阶 TPU」的原因。
数据显示,在相同推理任务中,Groq 芯片首 token 延迟比谷歌 TPU v7 降低 20% 至 50%,每 token 成本降低 10% 至 30%。
这场芯片革命,才刚开始加速
Groq 被收编,但「高阶 TPU」的进化没停。
国内清微智能、海外 Cerebras 等公司正在高效数据流动态配置和先进集成方式上持续突破。
1. 通过 3D Chiplet 技术构建三维立体数据流架构。
具体来说,「计算核心 +3D DRAM 芯粒」的组合在垂直与水平两个维度上形成了高效的数据流计算模式,突破了传统二维架构的效率局限。
三维架构可以依据计算任务的需求和数据特性,在两个维度上灵活调度数据流,最大化缩短传输路径,降低搬运过程中的延迟与能耗,从而进一步提升整体计算效率。
2. 依托算力网格技术构建灵活数据流计算范式。
传统固定组网存在扩展性和语义适配瓶颈。而算力网格技术则可以通过灵活组网,实现 Scale up 与 Scale out 的协同。
根据 AI 任务特性,系统能实时下发数据流的动态配置信息,在多种互联拓扑结构间灵活切换、精准调度。最终降低互联延迟,充分释放数据流架构的算力。
3. 通过前沿的晶圆级芯片技术,将数据流架构的优势发挥到极致。
这项技术将数据流架构从芯片尺度扩展到整片晶圆。
在整张晶圆上高密度集成大量计算核心,计算核心间的互联距离被极大缩短。带来的结果是,互联带宽实现数量级提升,通信延迟大幅降低。
数据流架构的算力规模与计算效能由此被推到极致。这也是为什么晶圆级芯片被视为数据流计算架构的理想物理载体。
以 Cerebras 为例。
数据显示,Cerebras CS 3 系统推理性能比英伟达旗舰 DGX B200 快 21 倍,成本与功耗均降低三分之一,在算力、成本、能效上展现出显著的综合优势。
在实测中,OpenAI 的 Codex-Spark 跑出了每秒超 1000 token 的生成速度,让代码编写第一次有了实时交互的体验。

Cerebras CS-3 vs 英伟达 GPU:大模型推理速度对比
GPU 独霸的时代,回不去了
谷歌 TPU 走出围墙,OpenAI 拥抱晶圆级芯片,英伟达天价收编 Groq。
这些信号均指向同一个方向:TPU 已变成巨头们真金白银押注的主战场。
算力世界的单极时代,正在被多元架构终结。
决定下一代 AI 天花板的,不是算力堆砌的军备竞赛,而是能耗、延迟、确定性共同构成的新指标。
对国产芯片来说,这场变局既是机遇也是挑战。 跟随者只能分残羹,走出自己的底层创新之路,才有资格参与下一轮全球算力洗牌。
参考资料:
全球算力格局震荡,“高阶 TPU”崛起!
https://www.theinformation.com/articles/google-strikes-multibillion-dollar-ai-chip-deal-meta-sharpening-nvidia-rivalry
https://groq.com/newsroom/groq-and-nvidia-enter-non-exclusive-inference-technology-licensing-agreement-to-accelerate-ai-inference-at-global-scale
https://openai.com/index/introducing-gpt-5-3-codex-spark/
https://cloud.google.com/blog/products/compute/ironwood-tpus-and-new-axion-based-vms-for-your-ai-workloads
