Cerebras 的故事突然变顺了。几年前,它还是一家用“整片晶圆做芯片”的激进 AI 硬件公司,技术足够大胆,但商业化一直不够确定;现在,快推理成为大模型厂商愿意付溢价的方向,OpenAI 又签下 750MW 推理算力合作,Cerebras 站到了 IPO 窗口前。
SemiAnalysis 分析师 Myron Xie 在 14 日发布的一份研究报告把核心变化概括得很直接:“过了某个智能阈值之后,开发者更偏好更快的 Token,而不是更聪明的 Token。”这句话解释了 Cerebras 估值逻辑的转向:它不一定要在所有 AI 算力场景里击败 GPU,但只要“高交互速度”成为可收费产品,它的晶圆级架构就有了用武之地。
这也是 Cerebras 最迷人的地方。WSE-3 把 44GB SRAM、计算核心和片上互联塞进整片晶圆,带来 21PB/s级别的内存带宽,推理速度可以达到传统 HBM 加速器难以触及的区间。但同一套架构也带来限制:SRAM 容量不够大,片外I/O只有 150GB/s,冷却、供电、封装都高度定制,服务超大模型和长上下文时会越来越吃力。
OpenAI 是 Cerebras 的最大机会,也把风险集中到了一个客户身上。双方协议对应 750MW 推理算力,OpenAI 还有额外 1.25GW 选项;Cerebras 披露的剩余履约义务达到 246 亿美元。但这笔交易同时绑定了 10 亿美元工作资本贷款、接近免费行权的认股权证,以及高强度数据中心交付压力。IPO 投资人真正要问的,不是“晶圆芯片酷不酷”,而是:快 Token 的溢价,能不能覆盖 Cerebras 的结构性成本和单一客户风险。
Cerebras 押中的不是“总吞吐”,而是“交互速度”
过去 AI 推理硬件的主线,是每张 GPU、每个机柜能吐出多少 Token。对云厂商和模型厂商来说,总吞吐意味着单位成本,意味着能服务更多用户。
但用户行为正在把另一条曲线推到前台:tokens/sec/user,也就是单个用户拿到输出的速度。
OpenAI、Anthropic 都在把同一模型拆成不同服务档位:fast、priority、standard、batch。用户愿不愿意为更快响应付钱,已经不只是产品经理的猜测。Opus 4.6 fast 曾以约 6 倍价格换取 2.5 倍交互速度,后来速度优势降到约 1.75 倍;即便如此,高速模式仍是开发者愿意付费的 SKU。SemiAnalysis 自身 4 月 AI 支出一度年化达到 1000 万美元,其中 80% 花在 Opus 4.6 fast 上。
这说明一个市场变化:当模型能力足够可用,等待时间就会变成生产力瓶颈。对写代码、调用工具、连续迭代的 agentic workflow 来说,慢几秒不是体验问题,而是工作流被打断。
Cerebras 的优势正好在这里。它不是靠更多 HBM 堆容量,而是靠片上 SRAM 极高带宽,把低 batch、小并发、高交互速度的 decode 场景做得非常快。换句话说,GPU 像一辆能拉很多人的大巴,Cerebras 更像为了少数乘客高速直达而设计的跑车。

WSE-3 不是“大号 GPU”,它是一整片晶圆
Cerebras 的核心产品 WSE,是把整片晶圆当成一颗芯片,而不是切割成几十、上百颗独立 die。
WSE-3 采用台积电 N5 工艺,由 12×7、共 84 个相同步进区域组成。每片晶圆上有约 97 万个核心,其中 90 万个启用。晶圆面积的一半给 SRAM,另一半给计算核心。这个设计的关键,是计算和存储都留在同一片硅上,尽量避免数据离开芯片、离开封装。
参数很夸张:
-
SRAM 容量:44GB
-
SRAM 带宽:21PB/s
-
对外I/O:150GB/s
-
公开营销口径 FP16 算力:125PFLOPs
-
按8:1 非结构化稀疏折算后的 dense FP16 算力:约 15.6PFLOPs

这组数字要分开看。21PB/s内存带宽是 Cerebras 最强的地方;15.6PFLOPs dense FP16 算力也不低,但如果按单位硅面积衡量,并不像宣传口径那么惊人。125PFLOPs 来自稀疏假设,材料里把这种算法调侃为“Feldman’s Formula”,对应的是把 dense 算力乘以8。
真正的分界线在内存类型。GPU、TPU、Trainium 这类主流 AI 加速器把模型权重和 KV Cache 放在 HBM 里;Cerebras 把它们尽量放进 SRAM。SRAM 快、延迟低,但单位 bit 成本高,容量密度低。
44GB SRAM 放在单芯片世界里很大。可和 HBM 比,它又不大。单个 HBM3E 12-Hi 堆栈就有 36GB;当前一颗高端 GPU 或 TPU 封装常见 8 堆栈,对应 288GB,是 WSE-3 SRAM 容量的 6.5 倍。
这就是 Cerebras 的基本交换:用容量换速度。
晶圆赢在低算术强度 decode,输在大模型和长上下文
Cerebras 最适合的任务,是低算术强度、内存带宽受限的 decode 阶段。
大模型推理里,很多 kernel 并不是缺算力,而是缺内存带宽。GPU 的 Tensor Core 可能很强,但如果权重和 KV Cache 喂不上来,算力就会饿着。Cerebras 把大量 SRAM 铺在晶圆上,数据离计算单元更近,带宽足够高,batch=1 这类低并发 decode 场景能跑出传统 HBM 系统很难达到的交互速度。
材料中的理论对比很清楚:如果看一个 batch=1、算术强度约为 2 的 decode kernel,NVIDIA GPU 和 Groq LPU 理论上只能实现几十到数百 TFLOPs 量级;Cerebras WSE-3 在理想条件下可以接近完整 15.625PFLOPs dense FP16 算力。
这就是“快 Token”的硬件基础。
但只要模型变大、上下文变长,44GB SRAM 就开始紧张。推理系统的内存要装三类东西:
-
模型权重;
-
并发请求所需 KV Cache;
-
长上下文带来的更大 KV Cache。
agentic coding 这类工作负载尤其麻烦。样本测算中,约 43.2 万条请求、约 800 亿 Token 显示,典型 P50 输入序列长度约为 96.3k Token,而不是 Cerebras 产品假设中的 64k;接近 50% 的请求超过 128k,这已经达到 Cerebras 公开端点目前支持的最大上下文窗口。
这意味着,如果未来模型服务走向 256k、1M 上下文,Cerebras 要么压缩 KV Cache,要么上更多晶圆,要么牺牲交互速度和经济性。
冷却和 BOM 说明:这不是便宜算力
CS-3 系统不是把一颗芯片插进服务器那么简单。
每台 CS-3 包括一个 WSE-3 engine block、外围计算和I/O模块、两个机械泵、12 个 3.3kW 电源模块,以及液冷系统。单片 WSE-3 本身功耗约 25kW,放在 46,225 平方毫米晶圆上,平均热流密度约 50W/cm²,还没算热点。
风冷却不现实。普通 3D 均热板如果放大到 21.5 厘米见方,会遇到毛细极限,工质回流跟不上。Cerebras 只能做定制液冷结构:冷板、晶圆、柔性连接器、PCB 组成四层“三明治”,散热歧管接在冷板背后。硅和 PCB 热膨胀系数不同,传统封装会裂,所以连接、预压、装配工具都要定制。
数据中心侧也被改变。GB200 NVL72 参考设计的设施侧流量约 1.5 LPM/kW,而 WSE-3 在 25kW 下约 100 LPM,相当于 4 LPM/kW,接近 3 倍。这要求更大的泵、更粗的管、更大的 CDU 和更高流量的快接头。CS-4 若能把机架级流量拉回 1.5—1.7 LPM/kW,才更接近标准化基础设施。
成本同样不轻。CS-3 加 KVSS CPU 节点的 BOM 估算,在去年四季度内存涨价前约 35 万美元/机架;计入最新内存价格后约 45 万美元/机架。KVSS 是双路 AMD CPU 节点,配 6TB DDR5 RDIMM,用于 KV Cache offload。
有意思的是,最贵的不只是台积电 N5 晶圆。单片 N5 晶圆名义成本约 2 万美元,但 Cerebras 还要为每批晶圆做额外上层金属 mask,用来绕过缺陷 tile;Vicor 定制供电模块也很贵,材料中估计其价值量接近台积电内容;冷却、封装、组装大量自研,外围还有 12 个 100GbE Xilinx FPGA 承担类似 NIC 的角色,把 Cerebras 自有I/O转换成以太网。
所以 Cerebras 并不是“便宜芯片替代 GPU”。它是在一个特定推理速度区间,用复杂系统换极致交互速度。
SRAM 扩展停滞,是 Cerebras 绕不过去的节点问题
Cerebras 最依赖 SRAM,但 SRAM scaling 正在失速。
三代 WSE 的 SRAM 容量变化很能说明问题:
-
WSE-1,台积电 16nm,18GB SRAM;
-
WSE-2,7nm,40GB SRAM,代际提升 2.2 倍;
-
WSE-3,5nm,44GB SRAM,只提升约 10%。
同样从 7nm 走到 5nm,逻辑晶体管数量增长约 50%,但 SRAM 容量几乎没怎么动。往后更难。N3E 相对 N5 在 SRAM 上基本没有缩小,N2 及以后也继续受限。
对 Cerebras 来说,这比对 GPU 厂商更致命。GPU 可以继续叠 HBM、扩封装、靠互联池化内存;Groq 这类 SRAM 机器也可以用 hybrid bonding 在Z方向堆更多 SRAM tile。Cerebras 是整片晶圆,平面面积已经用满。如果增加 SRAM 面积,就要牺牲计算面积。
CS-4 的路线也暴露了这一点:仍使用 N5 基础的 WSE-3,但提高功耗、提升时钟和计算持续能力,SRAM 容量不变。
可选方向是晶圆对晶圆混合键合,把 DRAM 晶圆或更多存储叠到 WSE 上。Cerebras 确实在探索这种路径。但晶圆级整体芯片的热机械问题、bond wave 问题,都比常规 hybrid bonding 更难。它过去解决过很多不寻常问题,但下一步仍然是硬仗。
最大硬伤是I/O:晶圆很大,出口却很窄
WSE-3 片外带宽只有 150GB/s,也就是 1.2Tb/s。相对它的计算规模和片上带宽,这个出口太小。
这个问题不是工程师没意识到I/O重要,而是晶圆级架构自身的几何约束。
WSE 由 84 个相同步进区域组成,每个 reticle 曝光图案必须一致,逻辑、SRAM、布线位置都一样,才能让跨划片道互联在晶圆上连续延伸。也就是说,不能只在边缘 reticle 放 SerDes PHY,而中间 reticle 全做计算。每个 reticle 都必须长一样。
如果要增加边缘I/O,就要在每个 reticle 里都放 PHY。问题是,中间那些 PHY 没有办法连接外部世界,只会变成浪费的硅面积。更糟的是,高速 SerDes PHY 面积大、模拟电路不喜欢贴近数字逻辑,还要 guard region;放进晶圆内部,会在 2D mesh 里打洞,增加绕线和延迟,削弱晶圆级互联本来要解决的问题。
材料里给了一个直观数字:WSE 当前片外带宽约 0.17GB/s/mm 边缘密度,NVIDIA 片外I/O密度约为其 130 倍。
Cerebras 的解法是光互联晶圆:通过混合键合把光子互联晶圆叠到 WSE 上,让数据沿Z轴进出,而不是从晶圆边缘挤出去。合作方是 Ranovus。
这条路很漂亮,也很难。光学器件对温度敏感,不能太热也不能太冷;它还要贴着一片高功耗晶圆。光纤耦合在普通 CPO 里都还没完全工程化到轻松量产,更不用说放大到整片晶圆。
大模型会迫使 Cerebras 用流水线,而这违背了“快”的初衷
如果模型装不进一片 WSE,就只能跨多片晶圆切分。
但低I/O带宽排除了很多常见并行方式。高带宽 collective 通信不现实,大张量频繁进出晶圆也不现实。剩下最可行的是 pipeline parallelism:按层把模型切到多片 WSE 上,每片晶圆保留对应层权重,只在阶段之间传激活值。
Cerebras 服务 Llama 3 70B 时,就是把模型切到 4 片 WSE-3 上,只在晶圆之间传激活,通信量能压在 1.2Tb/s I/O能力范围内。
但流水线会带来三个问题。
第一,pipeline bubble。4 个阶段至少需要约 4 个 in-flight microbatch 保持忙碌;16 个阶段就需要约 16 个。阶段越多,调度越难。
第二,每个 in-flight microbatch 都有自己的 KV Cache,而 KV Cache 也要和权重一起挤在 44GB SRAM 里。哪怕新模型用更强 KV 压缩,KV 在片上片下搬运仍会以毫秒级增加 TTFT 和 TPOT 压力。
第三,晶圆数量增加,激活在晶圆间传输的固定延迟也线性增加。模型越大,越偏离 Cerebras 最理想的形态:小 batch、低延迟、单片或少数晶圆高速 decode。
公开产品线也透露了边界。Cerebras Inference Cloud 目前最大生产模型是 GPT-OSS,120B 总参数;更大的 preview 模型 GLM 4.7 也到 355B 为止。Llama 70B 和 405B 曾经受欢迎,后来被下线,可能与服务经济性有关。DeepSeek V3 和 Kimi K2 这两个 2025 年热门开源前沿模型,也没有出现在 Cerebras 公共云上。
不过这不是绝对死局。DeepSeek V4 Pro 这类模型如果采用更强 KV Cache 压缩,在足够并发下,1T+ 模型也可能重新变得可服务。问题在于,能不能同时保住 Cerebras 最值钱的东西:速度。
OpenAI 把 Cerebras 拉进主牌桌,也把风险集中到自己身上
OpenAI 在 Cerebras 未来里不是普通客户。
2025 年 12 月,双方签署 Master Relationship Agreement。OpenAI 承诺购买 750MW AI 推理算力,2026—2028 年分批部署,每批期限3—4 年,可延长到 5 年。OpenAI 还有选择权,可额外购买 1.25GW,把总量提高到 2GW。
S-1 披露,截至 2025 年 12 月 31 日,Cerebras 剩余履约义务为 246 亿美元。更重要的是,数据中心租金、电力、租赁改良、安全等 pass-through 成本由 OpenAI 报销,并按总额确认为收入。
OpenAI 还提供 10 亿美元工作资本贷款,年利率6%。如果 Cerebras 通过交付算力或硬件偿还,对应利息可豁免。偿还从初始 250MW 最后一批交付后开始,三年等额摊还。如果 MRA 因 OpenAI 重大未补救违约以外原因终止,Cerebras 可能要立即偿还全部未偿本金和应计利息。OpenAI 还可以指示托管银行停止按 Cerebras 指令使用资金,转为直接控制资金处置。
股权绑定也很深。Cerebras 向 OpenAI 发行 33,445,026 股 Class N 无投票权普通股认股权证,行权价 0.00001 美元,几乎等同免费。其中一部分因 10 亿美元贷款已立即归属,另一部分和 400 亿美元市值或付款门槛挂钩,剩余部分和算力交付、额外 2GW 扩张选项相关。完全稀释后,OpenAI 最多可持有 Cerebras 约 12% 股份,不包括后续新发行。
按 ASC 505-50,给客户的权益激励会在商业协议期内作为 contra-revenue 确认。以S-1 中 82.02 美元/股估值粗算,全部认股权证理论上对应约 27.4 亿美元 contra-revenue,约为 OpenAI 预期收入的 10%。
这是一笔能改变命运的订单,也是一个把公司命运押到单一对手方上的结构。

GPT-5.3-Codex-Spark 证明了速度价值,但也暴露模型尺寸问题
OpenAI 发布 GPT-5.3-Codex-Spark 后,Cerebras 的叙事更完整了。这个模型使用 gpt-oss-120B 架构,由真正的 GPT-5.3-Codex 蒸馏而来,在 Cerebras 上最高可跑到 2000 tok/sec/user。
关键在“120B”。它不是完整 GPT-5.3-Codex,而是小得多的蒸馏模型。材料中明确写到,它比完整模型小 10 倍以上。
这对 Cerebras 既是好消息,也是限制。
好消息是,120B 级别模型如果能力足够强,再叠加极快输出速度,确实可能成为高价值产品。开发者已经证明过,愿意为了更快 Token 放弃部分前沿智能。
限制在于,OpenAI 如果要在 Cerebras 上跑 1T 参数以上、1M 上下文窗口、面向真实 agentic workload 的大模型,就要接受明显成本取舍,并且实际交互速度可能低于 1000 tok/sec。能不能卖出足够高的 Token 溢价,是商业模型成立的关键。
材料给出的路径假设很激进:小模型能力继续提升,约一年内 120B 形态可能接近 GPT-5.5 级别智能。如果这成立,Cerebras 就不需要承载最前沿、最大参数模型,也能卖出高价快 Token。OpenAI 锁定的 750MW 只是第一步,真正的上行空间来自是否行使额外 1.25GW 选项,甚至继续扩大采购。
但这个上行条件很窄:Cerebras 必须证明,能在自己硬件适合的模型尺寸里,持续装下足够聪明、足够赚钱的模型。
IPO 的核心问题:快 Token 溢价能不能长期覆盖硬件取舍
Cerebras 不是另一个 GPU 故事。它不是在训练、大模型通用推理、长上下文吞吐上全面替代 NVIDIA,而是在一个更窄但可能很赚钱的区间里押重注:高交互速度、低 batch、用户愿意付溢价的推理。
晶圆级架构给了它极强的带宽和极快 decode,也让它背上了 SRAM 容量、片外I/O、冷却、BOM、数据中心适配这些硬约束。OpenAI 订单解决了需求问题,却没有消除交付风险和客户集中度。
所以 Cerebras 的 IPO 定价,不该只看 246 亿美元 backlog,也不该只看 2000 tok/sec/user 这种漂亮速度。更重要的是三个问题:
-
OpenAI 需要的快 Token,长期是不是 120B—355B 这类模型就够;
-
用户愿意为速度付出的溢价,能不能覆盖 Cerebras 更复杂的系统成本;
-
750MW 到 2028 年能否按节奏落地,且不被冷却、电力、供应链和数据中心能力拖住。
如果答案偏向“是”,Cerebras 会成为快推理时代最有辨识度的 AI 硬件公司之一。如果答案偏向“否”,整片晶圆带来的速度优势,可能会被大模型和长上下文的内存需求一点点吃掉。
