国思软件 - CerebrasIPO：深度绑定OpenAI，以“Fast Tokens”重塑AI芯片市场预期

　　Cerebras 的故事突然变顺了。几年前，它还是一家用“整片晶圆做芯片”的激进 AI 硬件公司，技术足够大胆，但商业化一直不够确定；现在，快推理成为大模型厂商愿意付溢价的方向，OpenAI 又签下 750MW 推理算力合作，Cerebras 站到了 IPO 窗口前。

　　SemiAnalysis 分析师 Myron Xie 在 14 日发布的一份研究报告把核心变化概括得很直接：“过了某个智能阈值之后，开发者更偏好更快的 Token，而不是更聪明的 Token。”这句话解释了 Cerebras 估值逻辑的转向：它不一定要在所有 AI 算力场景里击败 GPU，但只要“高交互速度”成为可收费产品，它的晶圆级架构就有了用武之地。

　　这也是 Cerebras 最迷人的地方。WSE-3 把 44GB SRAM、计算核心和片上互联塞进整片晶圆，带来 21PB/s级别的内存带宽，推理速度可以达到传统 HBM 加速器难以触及的区间。但同一套架构也带来限制：SRAM 容量不够大，片外I/O只有 150GB/s，冷却、供电、封装都高度定制，服务超大模型和长上下文时会越来越吃力。

　　OpenAI 是 Cerebras 的最大机会，也把风险集中到了一个客户身上。双方协议对应 750MW 推理算力，OpenAI 还有额外 1.25GW 选项；Cerebras 披露的剩余履约义务达到 246 亿美元。但这笔交易同时绑定了 10 亿美元工作资本贷款、接近免费行权的认股权证，以及高强度数据中心交付压力。IPO 投资人真正要问的，不是“晶圆芯片酷不酷”，而是：快 Token 的溢价，能不能覆盖 Cerebras 的结构性成本和单一客户风险。

　　Cerebras 押中的不是“总吞吐”，而是“交互速度”

　　过去 AI 推理硬件的主线，是每张 GPU、每个机柜能吐出多少 Token。对云厂商和模型厂商来说，总吞吐意味着单位成本，意味着能服务更多用户。

　　但用户行为正在把另一条曲线推到前台：tokens/sec/user，也就是单个用户拿到输出的速度。

　　OpenAI、Anthropic 都在把同一模型拆成不同服务档位：fast、priority、standard、batch。用户愿不愿意为更快响应付钱，已经不只是产品经理的猜测。Opus 4.6 fast 曾以约 6 倍价格换取 2.5 倍交互速度，后来速度优势降到约 1.75 倍；即便如此，高速模式仍是开发者愿意付费的 SKU。SemiAnalysis 自身 4 月 AI 支出一度年化达到 1000 万美元，其中 80% 花在 Opus 4.6 fast 上。

　　这说明一个市场变化：当模型能力足够可用，等待时间就会变成生产力瓶颈。对写代码、调用工具、连续迭代的 agentic workflow 来说，慢几秒不是体验问题，而是工作流被打断。

　　Cerebras 的优势正好在这里。它不是靠更多 HBM 堆容量，而是靠片上 SRAM 极高带宽，把低 batch、小并发、高交互速度的 decode 场景做得非常快。换句话说，GPU 像一辆能拉很多人的大巴，Cerebras 更像为了少数乘客高速直达而设计的跑车。

　　WSE-3 不是“大号 GPU”，它是一整片晶圆

　　Cerebras 的核心产品 WSE，是把整片晶圆当成一颗芯片，而不是切割成几十、上百颗独立 die。

　　WSE-3 采用台积电 N5 工艺，由 12×7、共 84 个相同步进区域组成。每片晶圆上有约 97 万个核心，其中 90 万个启用。晶圆面积的一半给 SRAM，另一半给计算核心。这个设计的关键，是计算和存储都留在同一片硅上，尽量避免数据离开芯片、离开封装。

　　参数很夸张：

SRAM 容量：44GB
SRAM 带宽：21PB/s
对外I/O：150GB/s
公开营销口径 FP16 算力：125PFLOPs
按8:1 非结构化稀疏折算后的 dense FP16 算力：约 15.6PFLOPs

　　这组数字要分开看。21PB/s内存带宽是 Cerebras 最强的地方；15.6PFLOPs dense FP16 算力也不低，但如果按单位硅面积衡量，并不像宣传口径那么惊人。125PFLOPs 来自稀疏假设，材料里把这种算法调侃为“Feldman’s Formula”，对应的是把 dense 算力乘以8。

　　真正的分界线在内存类型。GPU、TPU、Trainium 这类主流 AI 加速器把模型权重和 KV Cache 放在 HBM 里；Cerebras 把它们尽量放进 SRAM。SRAM 快、延迟低，但单位 bit 成本高，容量密度低。

　　44GB SRAM 放在单芯片世界里很大。可和 HBM 比，它又不大。单个 HBM3E 12-Hi 堆栈就有 36GB；当前一颗高端 GPU 或 TPU 封装常见 8 堆栈，对应 288GB，是 WSE-3 SRAM 容量的 6.5 倍。

　　这就是 Cerebras 的基本交换：用容量换速度。

　　晶圆赢在低算术强度 decode，输在大模型和长上下文

　　Cerebras 最适合的任务，是低算术强度、内存带宽受限的 decode 阶段。

　　大模型推理里，很多 kernel 并不是缺算力，而是缺内存带宽。GPU 的 Tensor Core 可能很强，但如果权重和 KV Cache 喂不上来，算力就会饿着。Cerebras 把大量 SRAM 铺在晶圆上，数据离计算单元更近，带宽足够高，batch=1 这类低并发 decode 场景能跑出传统 HBM 系统很难达到的交互速度。

　　材料中的理论对比很清楚：如果看一个 batch=1、算术强度约为 2 的 decode kernel，NVIDIA GPU 和 Groq LPU 理论上只能实现几十到数百 TFLOPs 量级；Cerebras WSE-3 在理想条件下可以接近完整 15.625PFLOPs dense FP16 算力。

　　这就是“快 Token”的硬件基础。

　　但只要模型变大、上下文变长，44GB SRAM 就开始紧张。推理系统的内存要装三类东西：

模型权重；
并发请求所需 KV Cache；
长上下文带来的更大 KV Cache。

　　agentic coding 这类工作负载尤其麻烦。样本测算中，约 43.2 万条请求、约 800 亿 Token 显示，典型 P50 输入序列长度约为 96.3k Token，而不是 Cerebras 产品假设中的 64k；接近 50% 的请求超过 128k，这已经达到 Cerebras 公开端点目前支持的最大上下文窗口。

　　这意味着，如果未来模型服务走向 256k、1M 上下文，Cerebras 要么压缩 KV Cache，要么上更多晶圆，要么牺牲交互速度和经济性。

　　冷却和 BOM 说明：这不是便宜算力

　　CS-3 系统不是把一颗芯片插进服务器那么简单。

　　每台 CS-3 包括一个 WSE-3 engine block、外围计算和I/O模块、两个机械泵、12 个 3.3kW 电源模块，以及液冷系统。单片 WSE-3 本身功耗约 25kW，放在 46,225 平方毫米晶圆上，平均热流密度约 50W/cm²，还没算热点。

　　风冷却不现实。普通 3D 均热板如果放大到 21.5 厘米见方，会遇到毛细极限，工质回流跟不上。Cerebras 只能做定制液冷结构：冷板、晶圆、柔性连接器、PCB 组成四层“三明治”，散热歧管接在冷板背后。硅和 PCB 热膨胀系数不同，传统封装会裂，所以连接、预压、装配工具都要定制。

　　数据中心侧也被改变。GB200 NVL72 参考设计的设施侧流量约 1.5 LPM/kW，而 WSE-3 在 25kW 下约 100 LPM，相当于 4 LPM/kW，接近 3 倍。这要求更大的泵、更粗的管、更大的 CDU 和更高流量的快接头。CS-4 若能把机架级流量拉回 1.5—1.7 LPM/kW，才更接近标准化基础设施。

　　成本同样不轻。CS-3 加 KVSS CPU 节点的 BOM 估算，在去年四季度内存涨价前约 35 万美元/机架；计入最新内存价格后约 45 万美元/机架。KVSS 是双路 AMD CPU 节点，配 6TB DDR5 RDIMM，用于 KV Cache offload。

　　有意思的是，最贵的不只是台积电 N5 晶圆。单片 N5 晶圆名义成本约 2 万美元，但 Cerebras 还要为每批晶圆做额外上层金属 mask，用来绕过缺陷 tile；Vicor 定制供电模块也很贵，材料中估计其价值量接近台积电内容；冷却、封装、组装大量自研，外围还有 12 个 100GbE Xilinx FPGA 承担类似 NIC 的角色，把 Cerebras 自有I/O转换成以太网。

　　所以 Cerebras 并不是“便宜芯片替代 GPU”。它是在一个特定推理速度区间，用复杂系统换极致交互速度。

　　SRAM 扩展停滞，是 Cerebras 绕不过去的节点问题

　　Cerebras 最依赖 SRAM，但 SRAM scaling 正在失速。

　　三代 WSE 的 SRAM 容量变化很能说明问题：

WSE-1，台积电 16nm，18GB SRAM；
WSE-2，7nm，40GB SRAM，代际提升 2.2 倍；
WSE-3，5nm，44GB SRAM，只提升约 10%。

　　同样从 7nm 走到 5nm，逻辑晶体管数量增长约 50%，但 SRAM 容量几乎没怎么动。往后更难。N3E 相对 N5 在 SRAM 上基本没有缩小，N2 及以后也继续受限。

　　对 Cerebras 来说，这比对 GPU 厂商更致命。GPU 可以继续叠 HBM、扩封装、靠互联池化内存；Groq 这类 SRAM 机器也可以用 hybrid bonding 在Z方向堆更多 SRAM tile。Cerebras 是整片晶圆，平面面积已经用满。如果增加 SRAM 面积，就要牺牲计算面积。

　　CS-4 的路线也暴露了这一点：仍使用 N5 基础的 WSE-3，但提高功耗、提升时钟和计算持续能力，SRAM 容量不变。

　　可选方向是晶圆对晶圆混合键合，把 DRAM 晶圆或更多存储叠到 WSE 上。Cerebras 确实在探索这种路径。但晶圆级整体芯片的热机械问题、bond wave 问题，都比常规 hybrid bonding 更难。它过去解决过很多不寻常问题，但下一步仍然是硬仗。

　　最大硬伤是I/O：晶圆很大，出口却很窄

　　WSE-3 片外带宽只有 150GB/s，也就是 1.2Tb/s。相对它的计算规模和片上带宽，这个出口太小。

　　这个问题不是工程师没意识到I/O重要，而是晶圆级架构自身的几何约束。

　　WSE 由 84 个相同步进区域组成，每个 reticle 曝光图案必须一致，逻辑、SRAM、布线位置都一样，才能让跨划片道互联在晶圆上连续延伸。也就是说，不能只在边缘 reticle 放 SerDes PHY，而中间 reticle 全做计算。每个 reticle 都必须长一样。

　　如果要增加边缘I/O，就要在每个 reticle 里都放 PHY。问题是，中间那些 PHY 没有办法连接外部世界，只会变成浪费的硅面积。更糟的是，高速 SerDes PHY 面积大、模拟电路不喜欢贴近数字逻辑，还要 guard region；放进晶圆内部，会在 2D mesh 里打洞，增加绕线和延迟，削弱晶圆级互联本来要解决的问题。

　　材料里给了一个直观数字：WSE 当前片外带宽约 0.17GB/s/mm 边缘密度，NVIDIA 片外I/O密度约为其 130 倍。

　　Cerebras 的解法是光互联晶圆：通过混合键合把光子互联晶圆叠到 WSE 上，让数据沿Z轴进出，而不是从晶圆边缘挤出去。合作方是 Ranovus。

　　这条路很漂亮，也很难。光学器件对温度敏感，不能太热也不能太冷；它还要贴着一片高功耗晶圆。光纤耦合在普通 CPO 里都还没完全工程化到轻松量产，更不用说放大到整片晶圆。

　　大模型会迫使 Cerebras 用流水线，而这违背了“快”的初衷

　　如果模型装不进一片 WSE，就只能跨多片晶圆切分。

　　但低I/O带宽排除了很多常见并行方式。高带宽 collective 通信不现实，大张量频繁进出晶圆也不现实。剩下最可行的是 pipeline parallelism：按层把模型切到多片 WSE 上，每片晶圆保留对应层权重，只在阶段之间传激活值。

　　Cerebras 服务 Llama 3 70B 时，就是把模型切到 4 片 WSE-3 上，只在晶圆之间传激活，通信量能压在 1.2Tb/s I/O能力范围内。

　　但流水线会带来三个问题。

　　第一，pipeline bubble。4 个阶段至少需要约 4 个 in-flight microbatch 保持忙碌；16 个阶段就需要约 16 个。阶段越多，调度越难。

　　第二，每个 in-flight microbatch 都有自己的 KV Cache，而 KV Cache 也要和权重一起挤在 44GB SRAM 里。哪怕新模型用更强 KV 压缩，KV 在片上片下搬运仍会以毫秒级增加 TTFT 和 TPOT 压力。

　　第三，晶圆数量增加，激活在晶圆间传输的固定延迟也线性增加。模型越大，越偏离 Cerebras 最理想的形态：小 batch、低延迟、单片或少数晶圆高速 decode。

　　公开产品线也透露了边界。Cerebras Inference Cloud 目前最大生产模型是 GPT-OSS，120B 总参数；更大的 preview 模型 GLM 4.7 也到 355B 为止。Llama 70B 和 405B 曾经受欢迎，后来被下线，可能与服务经济性有关。DeepSeek V3 和 Kimi K2 这两个 2025 年热门开源前沿模型，也没有出现在 Cerebras 公共云上。

　　不过这不是绝对死局。DeepSeek V4 Pro 这类模型如果采用更强 KV Cache 压缩，在足够并发下，1T+ 模型也可能重新变得可服务。问题在于，能不能同时保住 Cerebras 最值钱的东西：速度。

　　OpenAI 把 Cerebras 拉进主牌桌，也把风险集中到自己身上

　　OpenAI 在 Cerebras 未来里不是普通客户。

　　2025 年 12 月，双方签署 Master Relationship Agreement。OpenAI 承诺购买 750MW AI 推理算力，2026—2028 年分批部署，每批期限3—4 年，可延长到 5 年。OpenAI 还有选择权，可额外购买 1.25GW，把总量提高到 2GW。

　　S-1 披露，截至 2025 年 12 月 31 日，Cerebras 剩余履约义务为 246 亿美元。更重要的是，数据中心租金、电力、租赁改良、安全等 pass-through 成本由 OpenAI 报销，并按总额确认为收入。

　　OpenAI 还提供 10 亿美元工作资本贷款，年利率6%。如果 Cerebras 通过交付算力或硬件偿还，对应利息可豁免。偿还从初始 250MW 最后一批交付后开始，三年等额摊还。如果 MRA 因 OpenAI 重大未补救违约以外原因终止，Cerebras 可能要立即偿还全部未偿本金和应计利息。OpenAI 还可以指示托管银行停止按 Cerebras 指令使用资金，转为直接控制资金处置。

　　股权绑定也很深。Cerebras 向 OpenAI 发行 33,445,026 股 Class N 无投票权普通股认股权证，行权价 0.00001 美元，几乎等同免费。其中一部分因 10 亿美元贷款已立即归属，另一部分和 400 亿美元市值或付款门槛挂钩，剩余部分和算力交付、额外 2GW 扩张选项相关。完全稀释后，OpenAI 最多可持有 Cerebras 约 12% 股份，不包括后续新发行。

　　按 ASC 505-50，给客户的权益激励会在商业协议期内作为 contra-revenue 确认。以S-1 中 82.02 美元/股估值粗算，全部认股权证理论上对应约 27.4 亿美元 contra-revenue，约为 OpenAI 预期收入的 10%。

　　这是一笔能改变命运的订单，也是一个把公司命运押到单一对手方上的结构。

　　GPT-5.3-Codex-Spark 证明了速度价值，但也暴露模型尺寸问题

　　OpenAI 发布 GPT-5.3-Codex-Spark 后，Cerebras 的叙事更完整了。这个模型使用 gpt-oss-120B 架构，由真正的 GPT-5.3-Codex 蒸馏而来，在 Cerebras 上最高可跑到 2000 tok/sec/user。

　　关键在“120B”。它不是完整 GPT-5.3-Codex，而是小得多的蒸馏模型。材料中明确写到，它比完整模型小 10 倍以上。

　　这对 Cerebras 既是好消息，也是限制。

　　好消息是，120B 级别模型如果能力足够强，再叠加极快输出速度，确实可能成为高价值产品。开发者已经证明过，愿意为了更快 Token 放弃部分前沿智能。

　　限制在于，OpenAI 如果要在 Cerebras 上跑 1T 参数以上、1M 上下文窗口、面向真实 agentic workload 的大模型，就要接受明显成本取舍，并且实际交互速度可能低于 1000 tok/sec。能不能卖出足够高的 Token 溢价，是商业模型成立的关键。

　　材料给出的路径假设很激进：小模型能力继续提升，约一年内 120B 形态可能接近 GPT-5.5 级别智能。如果这成立，Cerebras 就不需要承载最前沿、最大参数模型，也能卖出高价快 Token。OpenAI 锁定的 750MW 只是第一步，真正的上行空间来自是否行使额外 1.25GW 选项，甚至继续扩大采购。

　　但这个上行条件很窄：Cerebras 必须证明，能在自己硬件适合的模型尺寸里，持续装下足够聪明、足够赚钱的模型。

　　IPO 的核心问题：快 Token 溢价能不能长期覆盖硬件取舍

　　Cerebras 不是另一个 GPU 故事。它不是在训练、大模型通用推理、长上下文吞吐上全面替代 NVIDIA，而是在一个更窄但可能很赚钱的区间里押重注：高交互速度、低 batch、用户愿意付溢价的推理。

　　晶圆级架构给了它极强的带宽和极快 decode，也让它背上了 SRAM 容量、片外I/O、冷却、BOM、数据中心适配这些硬约束。OpenAI 订单解决了需求问题，却没有消除交付风险和客户集中度。

　　所以 Cerebras 的 IPO 定价，不该只看 246 亿美元 backlog，也不该只看 2000 tok/sec/user 这种漂亮速度。更重要的是三个问题：

OpenAI 需要的快 Token，长期是不是 120B—355B 这类模型就够；
用户愿意为速度付出的溢价，能不能覆盖 Cerebras 更复杂的系统成本；
750MW 到 2028 年能否按节奏落地，且不被冷却、电力、供应链和数据中心能力拖住。

　　如果答案偏向“是”，Cerebras 会成为快推理时代最有辨识度的 AI 硬件公司之一。如果答案偏向“否”，整片晶圆带来的速度优势，可能会被大模型和长上下文的内存需求一点点吃掉。

CerebrasIPO：深度绑定OpenAI，以“Fast Tokens”重塑AI芯片市场预期

我们的产品

相关链接

关于我们

联系我们