“吴泳铭赶上了一个好时候。”
11 月 15 日晚,阿里巴巴集团公布季度业绩,截至 2024 年 9 月 30 日止季度,阿里云整体收入(不计来自阿里巴巴并表业务的收入)收入 296.1 亿元,同比增长超过 7%,经调整 EBITA 利润达到 26.61 亿元,同比增长 89%,超过分析师预期的 24.93 亿元。
财报提到,业绩由公共云业务的双位数增长带动,其中包括 AI 相关产品采用量的提升。AI 相关产品收入连续五个季度实现三位数的同比增长。一言以蔽之,阿里云靠 AI 增收又增利。
要知道,自 2023 年 9 月 10 日接任阿里云 CEO 起,这算是吴泳铭接手阿里云的一年答卷,也是阿里云收入(不包括阿里巴巴内部用云)恢复增长的第二个季度,有人说“吴泳铭赶上了一个好时候”,大模型刺激了公有云的采用量。
但其实并不是所有的云厂商都有和阿里云同样的收获。横向来看,其他厂商还在找到更有效率的方法,纵向来看,几年前阿里云就想靠 AI 来带动云的采用,但是并没有取得预期的效果,既有当时的 AI 价值太分散的原因,也有云和 AI 没有正确融合的原因。如今,吴泳铭示范了 AI 之于公有云,可持续健康增长的路径。
为 AI 基础设施“烧钱”,现金流大降
阿里云连续第四个季度实现增速上涨。
财报提到,阿里云还在继续缩减非公有云业务的规模,逐步降低利润率较低的项目式合约类收入并专注于高质量收入,非公共云收入是下降的。阿里云把收入增减控制在一个相对平衡的比例,非公有云业务的减少,不至于影响到整体大盘的增速。
同时,阿里云推动产品结构转向利润率更高的包括 AI 相关产品在内的公共云产品,以及提升运营效率,部分被对客户增长和技术的投入增加所抵消。
AI 基础设施的投入有多烧钱,从阿里财报可见一斑。截至 2024 年 9 月 30 日止三个月,阿里巴巴自有现金流为 137.35 亿元人民币,相较截至 2023 年 9 月 30 日止三个月的 452.2 亿元人民币下降 70%。
对阿里云基础设施的投入是最大原因,其他原因还包括取消年度服务费后向天猫商家的退款,以及缩小若干直营业务规模等因素而导致的其他营运资金变动。
吴泳铭在财报电话会上表示,阿里巴巴的许多资本支出都投入在云端,尤其是 AI 基础设施方面,这是基于对短期需求的理解以及对长期需求的判断的结果。阿里巴巴将继续投资于 AI 基础设施。因为预期未来对 AI 相关的云服务需求将随之增长。
就短期需求而言,对 AI 的需求持续呈爆炸式增长,包括驱动 AI 的计算能力、访问模型的 API 服务,现在甚至不可能完全有效地满足所有这些需求。这就是为什么我们在短期内进行积极的投资,但从长远来看,我们将 GenAI 的这一机会视为历史性机遇,这种机遇可能每 20 年才会出现一次。
“我们认为未来对推理的需求具有很高的确定性,看看 OpenAI 最新的模型 o1 及其 COT 思维链,就会发现推理需求将呈指数级增长。这解释了为什么我们在短期和长期内都在积极投资与人工智能相关的基础设施,因为我们对这种需求非常乐观。”他说。
AI 终于能拯救公有云了
公有云厂商唯一且最核心的任务,就是如何驱动更大的云消费,比如大数据、物联网等业务,AI 不是没有被关注到,早在上一波 AI 热潮时,阿里云就希望借 AI 驱动云的采用,但事与愿违。
彼时纯做 AI 的“独角兽”都活的一般,大型公有云厂商做的 AI 也门庭冷落,都是因为缺少规模化的用户,所有业务都要靠大牛带队专人解决,AI 也就没有促进云的进一步爆发。
但在大模型这一波,公有云厂商看到了期待中的云 +AI 的模型。一位阿里云内部人士对钛媒体 App 表示,在以大模型为代表的 AI 业务中,AI 的消耗占比可能最多只有三成,剩下的都是原来云计算的产品和服务。
“当一个 AI 的功能封装成一个智能体也好,或者是一个类似于 SaaS 的服务给到用户侧。其中调用 AI 模型的能力是一部分,甚至在整个应用各种服务的消耗里面,它都不是主要的部分。“他说。
就连大模型公司也在云上寻找合适的技术栈。月之暗面采用阿里云数据库,整合并总结来自多种信息源的数据,帮助智能助手 Kimi 准确理解用户的搜索意图;MiniMax 基于阿里云容器服务、云数据库等产品和服务,优化模型数据预处理和数据检索等环节,提升用户交互体验。
吴泳铭也提到,“云计算是一项技术优势和规模效应都很重要的业务,最近价格降低,是因为优先考虑扩大用户群,这将吸引大量新用户来使用这些模型在阿里云上部署他们的应用程序,他们对我们的计算能力、存储数据库和其他产品的使用增加,我们拥有完整的技术堆栈,只要人们来到这个平台,他们最终将不可避免地使用多种不同的云产品。”
图片系 AI 生成
云基础设施转向 AI 基建
过去 CPU 主导的计算体系已快速向 GPU 主导的 AI 计算体系转移。吴泳铭也道出了他的观察:不同公司在不同的软件中,都在研发 AI agent,包括自动化流程,以及用 AI 重塑以前小的训练模型,总体看到,我们的技术和美国的发展过程比较类似,大量原本用 CPU 的运算需求,都在用 GPU 重构,GPU 重构的基础就是大量 AI 模型的应用。
基于这样的观察和判断,阿里云正以 AI 为中心,全面重构底层硬件、计算、存储、网络、数据库、大数据,并与 AI 场景适配、融合,加速模型的开发和应用,打造 AI 基建。
例如,阿里云推出最大支持单机 16 卡的磐久 AI 服务器、数据吞吐量达 20TB/s的 CPFS 文件存储,以及可支持超过 10 万个 GPU 稳定连接的高性能网络架构 HPN7.0。阿里云 ACS 首次推出 GPU 容器算力,人工智能平台 PAI 实现了万卡级别的训练推理一体化弹性调度,AI 算力有效利用率超过 90%。
同时,阿里云百炼目前已集成上百款大模型 API,覆盖国内外主流模型。继 5 月首次大幅降价后,阿里云百炼平台上的三款通义千问主力模型再次降价。Qwen-Turbo 价格直降 85%,低至百万 tokens 0.3 元,Qwen-Plus 和 Qwen-Max 分别再降价 80% 和 50%。
通过全栈优化,阿里云打造出一套稳定和高效的 AI 基础设施,连续训练有效时长大于 99%,模型算力利用率提升 20% 以上。
在大模型方面,相比 2023 年 4 月的最初的通义大模型,Qwen-Max 的理解能力提升 46%、数学能力提升 75%、代码能力提升 102%、幻觉抵御能力提升 35%、指令遵循能力提升 105%,模型与人类偏好的对齐水平提升了 700% 以上。
吴泳铭还断言,这一波生成式 AI 对云的需求,前期是模型训练推动的。但是对算力的需求在放大,未来模型训练公司会逐步收窄到几家公司,尤其是在基础大模型上。另外在各行各业,比如自动驾驶、金融都有垂直行业模型训练需求,现在训练和推理需求都有比较好的增长,但是未来的百分比,AI 推理需求会带动更大比例的增长。(本文首发于钛媒体 APP,作者张帅,编辑盖虹达)