火山引擎,正在告别 Token 崇拜

  文 | 新立场 Pro

  2026 年,中国 AI 云市场上同时出现了两个“第一”。但两个“第一”指向的,是截然不同的问题。

  Omdia 5 月 19 日发布的报告给出了第一个答案:2025 年中国 AI 云市场总规模 567 亿元,阿里云以 38.1% 的收入份额位居第一,超过第二至第四名的总和,在 AI IaaS 和 MaaS 两个细分领域均居领先位置。

  但在 Omdia 发布数据的前一周,IDC 公布了另一组数字。IDC 数据显示,2025 年中国公有云大模型调用量同比增长 16 倍,达到 1944 万亿 Token。在这张榜单上,火山引擎以 49.5% 的调用量份额、40% 以上的营收份额,站在了第一位。

  Omdia 说的是“谁卖得多”,IDC 问的是“谁被用得多”。两份报告,两把尺子,量的是不同维度的东西,但共同印证了 2026 年中国云市场的繁荣,也精准映出两家公司不同的战略落点,阿里云在收入体量上守住了既有优势,火山引擎则在调用规模上建立了自己的坐标,并试图把量的积累转化为平台层更难被替代的价值。

  5 月 11 日,火山引擎发布了国内首个 Agent Plan。套餐里,GLM-5.1 和 Kimi-K2.6 与火山引擎自研模型并排陈列,统一使用 AFP(Agent Flow Pricing)计费,月费 40 元起。一家占据中国公有云 MaaS 市场近半调用量的公司,主动把竞争对手的产品放进了自家货架。

  目前,主流模型之间的能力差距,已经收窄到大多数企业用户难以在实际业务中感知的程度。Token 单价持续压缩,用户切换供应商的成本趋近于零。在这样的市场条件下,“最强模型”的叙事价值在加速衰减,而“最全平台”的战略优先级随之上升。

  Agent Plan 是这条逻辑走到今天的产品化表达,而非起点。IDC 的数据从规模维度坐实了这个判断,2025 年中国公有云 MaaS 调用量同比增长 16 倍。在一个量级扩张如此剧烈的市场里,决定天花板的,或许从来都不是模型能力的绝对高度。

  低价 Token,先把规模跑出来

  火山引擎拿下 MaaS 近半市场份额,靠的不只是模型能力,其比同行更早完成规模积累,并将规模转化为可持续的工程优势。这套逻辑的起点,是一个相对清晰的战略判断——公有云存量市场的格局已经固化,新兴的 MaaS 业务,才是仍有空间建立差异化的方向。

  2020 年,火山引擎正式对外推出。谭待接手时,传统 IaaS 领域早已是一场拼客户粘性、拼多年运营积累的消耗战,后来者几乎没有逆转空间。MaaS 因此成了火山引擎最有可能实现突破的方向,先以模型服务建立入口,再带动 IaaS 和 PaaS 层的协同增长。

  这个逻辑在海外有现成参照。Azure 出售 OpenAI 模型 API,只是链条的第一环。企业客户一旦接入大模型,往往会继续采购检索、数据库等配套云服务,整体支出随之抬升。

  2020 年底,他随字节跳动对“幺零贰四”的收购加入,最初主导火山引擎技术架构,此前深耕搜索引擎领域。相比“提供最聪明的答案”,搜索的竞争逻辑更倾向于“让用户以最低成本、最高效率找到结果”。这个基因直接塑造了他对 MaaS 的理解方式,即Token 是需要以最高效率送达用户的生产资料。

  据《晚点 LatePost》报道,火山引擎在 2025 年内两度上调 MaaS 收入目标,Seed 2.0 和 Seedance 2.0 发布后再次上调,原定超百亿的 2026 年目标随之刷新。资源的集中方向与调整节奏,始终指向同一个优先级。

  谭待曾明确表示,Token 使用量高速增长的核心驱动力,是 AI 视频创作的爆发与 AI 智能体的加速普及,而非通用语言模型能力的整体提升。这个判断,在豆包大模型的市场表现与其基准测试能力之间存在落差的背景下,多了一层解释力。

  在视频生成这一 Token 消耗密度最高的场景,字节跳动目前处于市场领先地位。据 AI 普瑞斯报道,按日均算力消耗占比测算,Seedance 已占据超过 80% 的市场份额,可灵紧随其后约占 14%,万相约占4%。也就是说,当下的 AI 视频生成市场,用户每发起 10 次生成请求,超过 8 次流向 Seedance。

  AI 智能体场景同样是 Token 消耗的放大器,一次 Agent 任务通常包含多轮推理、工具调用与任务执行,单次消耗量远高于普通对话。这个场景结构,构成了理解火山引擎市场份额的第一个关键前提,它的调用量领先,很大程度上建立在特定场景的需求密度上。

  而价格机制则是火山引擎规模积累的杠杆。去年 5 月,火山引擎把豆包大模型价格打入“厘时代”,豆包 1.6 首创依据输入长度区间定价,综合成本比同级别模型降低 63%。谭待事后的解释只有一句话:能靠技术把成本降下来,就决定一次降彻底。

  支撑这次降价的技术底座,是火山引擎较早大规模应用的两项关键工程优化——PD 分离与 KV Cache。可以用一个更直白的类比理解它们的作用,PD 分离相当于把“读题”和“答题”两个动作拆给不同的工位分别处理,让每个环节匹配更合适的算力资源;KV Cache 则相当于给推理过程配一本“草稿本”,缓存已经算过的历史状态,避免每次生成新内容都从头重算,两项技术的共同目标,是降低单次推理的显存消耗与计算成本。

  这两项技术的收益,高度依赖规模。小规模调用时,维护复杂缓存和调度系统本身也有成本,可能抵消节省下来的算力;规模越大,缓存命中率越高,工程优化的收益才越显著。谭待曾用一个例子描述这种放大效应:1 万台服务器利用率优化一个点,与 100 万台服务器优化同样一个点,收益相差 100 倍。

  当 PD 分离、KV Cache 等技术在行业内逐步扩散,Token 价格趋向均一,这道门槛才真正显现。规模不足的跟随者对标低价,往往承受更大的成本压力。调用规模更大的平台,成本空间也更充裕,在价格竞争中也具备更长的持续性。

  2025 年下半年,是去年竞争最激烈的阶段。竞争对手密集入场,但火山引擎的调用量份额从上半年的 49.2% 进一步升至全年的 49.5%。份额没有下降,反而小幅抬升。这个数字,部分印证了规模优势在当前阶段的防御价值。

  模型商品化之后,平台开始定价

  Agent Plan 的发布,是一个信号。它标志着火山引擎在产品层面完成了从模型分发商,向基础设施提供方的重心转移。

  在 2026 年以前,MaaS 的基本商业形态只有一种:卖 Token 接口。企业按调用量付费,模型是核心购买对象,平台只是管道。Agent Plan 改变了这个结构的底层逻辑,将自研 Seed 系列模型与 GLM-5.1、Kimi-K2.6 等第三方模型,连同联网搜索等 Harness 工具打包,以 AFP 统一计费体系出售。计费单位从“消耗多少 Token”迁移到“完成多少任务”。

  Harness,是这次发布中被忽视的关键词。MaaS 提供稳定的模型能力,Harness 负责把推理变成可约束、可追踪、可持续运行的工作流。两者分工不同,但目标却一致,让 Agent 在生产环境里真正可用。企业的 Agent 任务通过 AFP 统一计费平台运行,工作流日志、用量报表和审计记录全部在同一体系内生成时,用户就不得不重点考虑迁移成本。

  据《晚点 LatePost》报道,火山引擎过去几年的产品演进,在强化 MaaS 竞争力的同时,也在逐步把大模型服务扩展为覆盖 Agent 开发与运营的基础设施。谭待此前的描述提供了一个参照:以前写代码,本质上是在写 if-else 定义工作流;现在基于模型开发 Agent,流程规划、任务拆解、创建子 Agent 等环节,越来越多地交给模型自己完成。

  Agent Plan 把竞品模型纳入自家套餐,一种解读是火山引擎判断自身的基础设施价值,已经高于单一模型的产品价值,可以从第三方模型的分发中获取渠道收益,逻辑类似 AWS Marketplace 允许第三方 SaaS 软件上架,平台的核心资产是用户在平台内积累的工作流数据与账单绑定深度。

  这里有一组方向相反的力量在同时运作,把竞品模型纳入套餐,降低了用户在平台内切换模型的摩擦,是一种开放姿态;AFP 统一计费的设计目标,恰好相反,它在提高用户离开这个平台的整体成本。开放性吸引用户进来,账单绑定让用户留下。哪个目标最终占主导,取决于企业客户对平台的依赖深度。而这个深度,只有当真实的 Agent 工作流被部署进生产环境之后,才能被测量。

  目前检验这个判断的关键变量只有一个,那就是第三方模型在 Agent Plan 总调用量中的占比,是否会随时间持续下降。如果用户最终向 Seed 系列集中迁移,平台化叙事成立;如果比例稳定甚至上升,则更接近一种现实主义的能力补位。答案需要时间。

  支撑平台化转型的,还有组织结构的同步收敛。2025 年,字节跳动 AI 研发团队经历了三次整合,AI Lab 整体并入 Seed 团队,视觉生成团队与豆包技术部的管理权限统一纳入 Seed 体系,从分散研发走向统一驱动。这不只是研发效率的整合。只有统一调度的研发体系,才能为 MaaS 平台提供稳定、可预期的模型迭代节奏。

  火山引擎已经回答了 MaaS 第一阶段的核心问题,即胜出不需要最强的模型,需要的是最低的调用门槛、最彻底的价格策略,以及比对手更早完成规模积累。但规模优势只有被转化为平台层的绑定深度,才能延续到下一阶段的竞争。而平台绑定的前提,是企业客户真正把 Agent 工作流跑在这里,这要求工具链的完整度和模型能力在关键场景上足够可靠。

  写在最后

  从 Token 平台到 Agent 基础设施,这条演进路径在海外有轮廓可循。Anthropic 与多家云厂商合作,OpenAI 与 AWS 合作将模型封装进云平台的原生 Agent 环境,目标都是让企业能在云平台内完成生产级 Agent 的开发与运营。IDC 报告显示,MaaS 的商业边界,正在从“按量计费的推理服务”扩展为“企业 AI 工作流的运营底座”。越来越多的大客户与平台的合作,开始向业务流程的深处延伸,而不只停留在账单层面。

  不过,IDC 的预测给出了一个判断,2026 年中国 MaaS 市场 Token 消耗量将达到 40000 万亿,对应营收约 186 亿元人民币。消耗量在一年内扩张约 21 倍,营收增幅远低于量的增幅。这意味着 Token 的平均单价将进一步压缩。

  量增与价降同步发生,背后是行业在当前阶段的共同选择。先把规模做出来。但低价策略有一条财务底线,算力成本的下降速度,必须能跑赢 Token 单价的下降速度。这个问题的答案,悬在英伟达的供货节奏和国产替代芯片的成熟进度之间。两者目前都难以精确预判。

  谭待说过,MaaS 这件事还太早,“马拉松才跑 500 米,别取得一点点小成绩就满意了。”这句话在 2025 年是内部激励,在今年 5 月读来,多了一层别的含义,把竞品模型打包进自家套餐的决定,是一家已在规模竞争中建立优势的公司,对下半程规则可能改变的提前布局。这个判断是否正确,要等企业客户真正跑起生产级 Agent 之后才能验证。

  “够用”赢得了第一阶段。能否用同样的逻辑赢得 Agent-as-a-Service 的竞争,取决于企业级 Agent 场景对模型能力的实际容忍边界在哪里,才是下半程真正的问题。

  *题图及文中配图来源于网络。