引言
2 月 29 日,阿里云宣布史上最大力度降价,引发行业对用云成本的热议。近日,在 InfoQ 发起的圆桌讨论上,InfoQ、极客邦科技创始人 & CEO 霍太稳,与阿里云智能集团副总裁、公共云首席解决方案架构师韩鸿源,掌阅科技 CTO、AI 业务负责人孙凯,贝联珠贯创始人 &CEO、CCF 杰出工程师林昊(毕玄),共同围绕云上的降本增效、Twitter“下云”真相、自建 IDC 和上云成本比对,及大模型时代的机会,展开思想碰撞。
霍太稳:今天非常荣幸邀请到三位嘉宾一起聊一个话题,叫“云上的降本增效”。赶的时间比较巧,刚刚阿里云发布了一个重磅消息,要全线下调云产品官网售价,平均降幅达到 20%,有的已经拦腰砍了,降幅达到 55%。我想一定有人会很开心,像掌阅科技的孙凯,想请你谈一谈现在的感受,怎么看待这个信号?
孙凯:我们刚刚完成了全面上云,也在与阿里云深度合作,所以这样的降价我们肯定是乐于见到的。我们也非常愿意在降本增效这个方向上投入一些资源,跟我们的伙伴一起去完成降本的动作。
霍太稳:其实对于云计算公司来说,降价是必须要做的一件事。包括全球的几家云巨头,在发展过程中,有时一年之内都要降价好几次。老韩,你作为一个局中人,你会怎么给大家去传递这个信号?
韩鸿源:过去这些年里,我们还是持续积累了不少技术优化带来的成本优势,随着规模不断增长,也带来了更大的降本空间。今天阿里云的降价,是希望能够惠及规模偏小但数量庞大的客户,通过官网来为客户提供服务。这些客户的确定性需求冲抵了不确定性之后,整体上能给用户去回馈更大的回报。
霍太稳:其实这个是云计算的优势:随着客户量的扩大,成本在平摊之后,其实价格会更便宜。那随着技术的演进,整体用云的成本还会持续降低吗?
韩鸿源:我觉得价格下降的趋势是会持续的。比如说现在存储设备的密度会持续提高,处理器的处理能力会持续提升,包括云的规模优势,在一个大的标准化的资源池里面,其实是能够有更大空间去做出更多的降本,持续把红利回馈给用户。所以我相信一定会延续下去的。
X(原 Twitter)“下云”的真相
霍太稳:虽然用云成本在持续下降,但我们也听过一些说法,说有的企业其实是不愿意上云的,他们觉得自建可能价格更低。包括去年大家讨论比较多的像 Twitter“下云“这个事情,我想毕玄应该也关注到了这个事件,你在云计算领域工作了那么多年,你是怎么理解的?
毕玄:Twitter“下云“在公网上传播力度很广,标题非常让人震撼,因为号称下降成本的幅度非常大。但其实看里面的成本构成,大家会知道,其实不光有 IT 成本,更多的是其他部分。
霍太稳:更多是人员成本进行了大幅度的削减。
毕玄:对。我还是认为“下云”这件事情对很多公司来讲是有很大挑战的。下云就意味着要自建,自建对于基础设施来讲其实是非常复杂的。比如说阿里最早也是自建的,从 2019 年开始往阿里云上搬。在自建的阶段,你可以看到阿里是有非常庞大的服务器、网络、存储等等各种技术团队。而这样庞大的团队背后也对应着很大的人员成本和人才挑战,因为这方面的人才积累其实是个不小的问题。Twitter 不像 Netflix 是天然成长在云上的,它是更上一代的互联网公司。所以它天然有一定基础设施相关的团队和人才积累,可以接得住。但对其他很多公司来讲,其实这是一个很大的问题。
另外一个最重要的问题是,要搞清楚自己的 IT 成本到底是怎样分布的,尤其是跟业务的关联。比如一个业务背后的 IT 投入到底是多少?我去做了这个动作,是不是真的对业务成本有很大的影响?如果你只是听别人说下云会降很多成本,等到真的动手了,投入了很多,最后可能发现对业务也没有产生很大的帮助。所以我们觉得对很多公司来讲,第一个要解决的问题是要知道 IT 成本跟业务关联度的构成到底是什么,我做什么能对业务成本有更直接的影响,是下云还是做云上的优化或者别的其他动作。
霍太稳:孙凯你看到这个信息的时候,正好是掌阅科技在上云的过程中,当时对你产生什么影响?
孙凯:这个事情我这么看的,首先它发生在埃隆·马斯克做 CEO 之后的 Twitter,是有特殊性的。第一, 埃隆·马斯克这个人就比较特殊,作为 CEO,他对于技术的简洁性是比较有执念的。不管是做 SpaceX 还是做特斯拉,还是其他一些公司,他能做减法的一定不做加法。这一方面反映在组织上,另一方面反映在他掌管业务之后,一直在给 Twitter 的业务做减法。这一方面是因为他有能力,另一方面这是他的风格,他喜欢做一些所谓“不走寻常路”的决策。
霍太稳:所以说看来一个企业要想下云,首先要有一个埃隆·马斯克,这非常关键。
孙凯:因为我们当时正在上云的过程中,肯定也得从里面学一些东西嘛。首先,从结果来看,其实我会观察到 Twitter 下云从结构上不是完全无损的,中间其实出现过一些稳定性的问题,从我们来看就是出现过一些事故。但因为是他亲自来推动这件事,所以没有看得特别重。实际上用户的抱怨和收入的损失都是有的,只是没有特别去做全面的统计。
再一个,我觉得他推动这件事很快。这一定程度上也加速了我们整个上云的过程。换句话说,僵持的过程、双跑的过程越久,实际上会带来越多的不确定性和复杂性。
这给我们带来两个启发:第一,上云是我们要推进的一个很大的项目,我们尽量要做到稳定性的完全无损和无感,相信大多数像我们这样的企业都是这样去看的。第二,在保证稳定的前提下,尽量把时间压缩,这可能是更明智的选择。
霍太稳:作为一个云厂商的从业人员,老韩你怎么看?
韩鸿源:关于这件事情,现在有很多不完全准确的信息。第一,Twitter 在所谓的“下云”之前和之后,始终在用混合云的方式运行自己的业务,也就是公共云和自建 IDC 结合在用。所谓“下云”带来的很多成本变化是发生在它的线下 IDC 里面。网传的“云的支出降低了 60%”,如果你深究一下它的来处,会发现并不是这么夸张的。综合《马斯克传》和其他信息来源会发现,它是支付给 AWS 每年的云的费用降了 60%,不是 Twitter 整体成本降 60%。原因是是把萨克拉门托的数据中心整个给退租掉了,运了大概 145000 台服务器到另一个数据中心去。另外,Twitter 在马斯克接管之前是一个非常粗放运行的公司,公司里的人非常舒服,资源也比较铺张浪费。在这个基础上来讲,这个并不是一个上云下云的问题,实际上是资源优化的问题。
就跟马斯克去优化人员一样,8000 人的 Twitter 能优化到 2000 人,我相信 IT 方面的支出其实也是有相当比例的。但确实不是说从云上搬到云下省了 60%,这个错误可能是需要大家帮着一块去修正的。
其实大家很容易忽视的一点是,如果 Twitter 所有的资源全都放在自己的机房里,没有结合公共云的话,它是没有可能通过退租来省成本的。对于这些大企业来讲,对于不确定性的工作负载来讲,混合云实际上是给了你一个弹性的池子,是为持续优化成本提供了更多可能性的空间。即便这么大体量的公司,它的业务也不可能一直是持续增长下去的,所以你用公共云结合线下机房的方式,其实是可以更好的优化你的成本结构,为未来埋下更多的优化空间。
自建 IDC vs.上云,这笔账怎么算?
霍太稳:掌阅刚刚完成上云,你们在衡量“上云”这件事情的时候,有没有去计算过是自建更加划算,还是用云更加划算?
孙凯:肯定是计算过的。客观来讲,掌阅科技这家公司 2008 年成立,按照互联网行业来讲,“上云”这件事情上属于偏滞的。如果我们往前去复盘,有两个因素是比较关键的。第一,是对于公共云的认知问题,比如说公共云能给我们带来什么。非常早期的时候大家还会有一些困扰,说会不会偷我的数据,或者说我的数据会不会有泄露风险等等的。但随着慢慢的市场教育、认知提升,这方面的顾虑没有了,紧接着其实就是怎么来算这笔账的问题。上云要花的钱真真实实的是要从我账上划走的,但我得到了什么?我觉得算账这个问题可能是阻碍像我们这样的公司上云的一个大问题。
坦白讲,我觉得算账不是一蹴而就的事。一开始是要构建算账的逻辑是什么,框架是什么?我们哪部分能算到左边,哪部分能算到右边?左边大于右边的时候我们怎么办?左边小于右边的时候怎么办?接下来框架就要再往下拆解。一开始,这个框架是缺失的,所以也不容易做出在经营层面上的决策。毕竟把整个公司搬到云上,它的成本支出是需要详实的推导和证明。
第二,就是我们怎么看“成本”这件事情。如果单纯机器对机器,坦诚地讲,我认为是不会有特别大的差异,或者说不是本质上或者结构性上的差异。更多地我们要看到的是,机器买来其实不是问题的结束,不是说买了一插电这活就干完了,其实这才是问题的开始——后续的使用、优化、版本迭代,从 IaaS 层到 PaaS 层,把应用真正跑起来,需要中间件、需要软件、需要服务、需要运维,需要方方面面的人才建设,那才是更大的投入成本。这部分成本至少我们这样类型的公司跟云厂商比起来显然是不具备优势的,把这个整个搭起来,对我们这样的公司来说,其实是比较贵的。
第三,做决策当然要看具体的数字,但更多是一个定性判断。不算细账,算大账,哪怕成本一致,甚至是自建更优,但这是不是我们的业务重心,是不是我们的战略未来要突破的方向,值不值得我们投入这么多的人、时间、精力?我觉得这个账它并不复杂。我们这家公司是不是要在基础设施上去构建一个很强的团队,答案显然是否定的。
霍太稳:所以如果说只是算一些硬性的成本,便宜一点或者贵一点都有可能,但是如果加上管理成本、时间成本、人力成本、机会成本,可能自建就不太划算。我知道毕玄你们现在也帮助很多企业做云上的成本优化,你会怎么帮企业梳理成本的问题。
毕玄:刚刚孙凯讲的有一点很重要,你这家公司的定位是什么?自己构建一个基础设施相关的团队,是不是你这家公司在业务层面必须做的一件事情?从软件层面去看,中国市场总体跟国外一样,基本上越来越走向专业化分工,其实专业化分工从社会效率来讲就是最高的,你会觉得这些东西我交给一家云计算公司去做,其实更加合理。
第二个对于很多公司来讲,尤其对中小企业,云的弹性是他非常关注的一点。中小企业的业务波动性非常大,如果构建自己的数据中心,最大的问题就是我买了 100 台机器,当业务波动的时候我该怎么办?因为这个成本一开始就投进去了的,这是一笔很大的钱。如果用云,成本分摊到每个月,而不是一次占用我这么大的资金成本,其实这对很多企业来讲是很重要的,因为直接影响了他的现金流。
还有一点其实就是你创新的速度。这不仅对中小公司,中国非常头部的公司,也是用云用得非常好的公司。如果我们去看它用云的方法,很重要的一点是创新型业务,更多深度依赖云服务,包括 PaaS 层的各种新兴服务。因为云厂商对新技术的跟进是非常快的,现在科技界有什么,基本上很快就会在公共云上提供这项服务。但对于业务型公司来讲,你很难判断一个新型的技术服务对我的业务到底能产生多大的帮助,如果你自己先建一个团队去探索这个技术,然后再在上面堆业务,投入是非常大的。所以我们可以看到中国很头部的公司,他们会在创新型的业务上直接用云最新的一些技术服务,先探索一下我这个业务能不能走得通,更不用说中小公司。中小公司其实更加依赖云快速地把业务做出来。
掌阅科技上云的关键一跃
霍太稳:刚才我们也谈到掌阅科技终于完成了上云,整个过程中有哪些比较有意思的故事,中间有哪些关键的节点,包括最后一台服务器什么时候下线的,你当时什么样的感觉?
孙凯:这是个很有意思的问题。先说一个具体问题的答案,在我们目标内的最后一台服务器搬到云上以后,团队核心同学休了一周的假,确实是长舒了一口气。但即便如此,大家在家里依然是随时响应报警。可能很多公司都有这种情况,刚把报警监控系统全部 set up 起来,阈值设定可能会有不合理的地方,所以报警不一定是出事了,基本上都没事,但心里还是有一点忐忑和紧张。
回到上云这个项目,可以简单跟大家分享一下。我们是 2021 年做了一个决策,这个决策就是基于我刚才分享的一个逻辑,我们先不算账,我们先说我们这家公司到底应该在哪去投入人才,这个的答案倒是不难得出,就是我们大概率不会在基础设施团队上大规模投入,我们核心的价值输出点还是在于把业务做到持续增长,能够有更好的利润,从而能把公司的经营上一个台阶。我觉得这是对我们技术团队的一个根本定位,这是定性的问题。
定性之后,2020 年我做了一个当时不太讲道理的决策,就是我们的机房从 2021 年 9 月份以后就不再进任何一台机器了。方向是对的,但执行难度是有的,比如业务还在发展,作为研发我们需要去支撑业务的发展,没资源的话怎么支撑?半年为期,我们把手头已有的存粮再盘一盘,有哪些 CPU 利用率低的,有哪些机器可以混部的,我们基于现有的架构能做什么先做什么。优化了一波,大概腾出了 20% 的 buffer。
半年之后,紧接着来了第一个阶段,我把它定义为“不得不用云”,因为我们前面立了一个 flag,这个 flag 叫不再买机器了。但到了第二年,完成流量上涨后,我们需要通过广告的途径变现。对广告业务来讲,在 618 或者整个 6 月份是一个流量高峰,流量高峰机房里没机器,这时候怎么办?五一之后,我们就跟阿里云做了一个紧急专项。这个阶段为什么叫“不得不用云”?因为你已经有一个决策了,你又要扩资源,请问要扩到哪?只能是往云上走。
第一个 618 紧锣密鼓开始了,我们同时也进入到第一个阶段,叫混合云阶段。广告业务一方面是 QPS 或者服务器的压力,一方面是数据计算集群的压力。数据集群在 6 月 16 日早上 6 点就涨到了 90 分以上,且持续的往上涨。如果当时崩掉了,后面我们力主推的上云就会遇到问题,好在平稳应对过来了。那属于我们第一次初生牛犊。
扛过了整个 6 月份的业务高峰之后,我们紧接着进入第二个阶段。
第二阶段,变被动为主动。我们不再是流量来了临时扩容这种逻辑,而开始把一些相对比较独立的、跟历史系统耦合没那么深的系统主动在阿里云上测试。测了小半年,完成了 K8S 的改造,跟阿里云 PaaS 层平台的接入,把协议对好,把整个 CICD 部起来。其实也是让大家去感受一下,上云是不是能把效率提升。坦白讲,我们一开始推的时候,不理解的可能也不仅仅是业务团队,技术团队内部很多同学也觉得弄这事好像很麻烦:本来我的开发工作就挺繁重的,你还让我干这个?但从 2022 年下半年开始,整个舆论转向了,推进难度也变低了。如果从第一波叫被动防御,叫小规模尝试,进入 2023 年我们就开始大规模出击了。
上半年主要是数据,下半年主要是主站。进入最后冲刺阶段,我们甚至停了一个月的业务迭代,这跟刚才讨论 Twitter 的案例也有关系。按原有的排期,可能拖拖拉拉要到 2024 年,但后来我大概算了一下账,其实不如就快刀斩乱麻,因为一边要把整个业务做到完全无感,一边要把整个庞大的历史债务清偿,把中间件完成升级,把架构做优化,再把故障的隐患做成治理,把整个 K8S 改造适配,再用好阿里云的各个 PaaS 层应用,这件事情难度还是不低的。最后我们数据迁云大概用了 4 个月,主站大概用了 4 个月就全部完成了,这还包括中间有一些高峰月份我们没法动。
复盘下来是这么几个点:
第一,认知问题,这个事情要不要做。所以第一个阶段我们先做出一个不太讲道理的决策,现在看可能是对的。
第二,决策过程中确实需要算账,把成本结构搞清楚,哪些应该在左边的,哪些应该在右边,这个等式怎么列的。坦白讲,并跑的时候确实压力大,所以要快。
第三,在执行过程中,确实需要更多的人看到它的好处。一开始可能只有一小撮人坚信这个事情是对的,逐步地我们把这个事情的协同难度、推进难度降低,最后完成冲刺。这三点可能就是整个项目的一个复盘吧。
云不仅是资源,还有更大价值
霍太稳:所以说任何一个重要的事情,都是在质疑的过程里逐渐走向成功。其实刚才孙凯分享的上云故事,阿里云也提供了很多帮助,在老韩看来,掌阅的上云过程对其它企业有什么借鉴意义?
韩鸿源:掌阅的上云过程其实是非常典型的。应该说,掌阅今天其实是完整覆盖了所有这些云上的科技能力,属于典型的科技创造生产力的业务。大家都知道科技能力是比较重要的,但科技能力的变更其实对客户来讲,往往也意味着一个较大的变化,所以上云的客户、尤其是全面上云的客户,基本上都会经历这样的过程。
当然,大、中、小型客户可能还是会有一些差异的。越大的客户,它越希望云给它提供的是某些方面的补充服务,帮助它解决特定方面的一些问题,尤其是云资源方向的问题。规模偏小一些的客户,对于接受云的全面度来讲会更充分一些。就像刚才说的,今天大家对云的理解,如果还只把云看成一个基础资源的提供,那可能只会考核基础资源的供应能力。但实际上,我觉得今天对于所有使用 IT 的人来讲,除了资源供应之外,资源之上的这些软件带来的技术能力、支撑业务的能力是很关键的。从这个角度来讲,其实今天云做了非常多工作,比方说,把开源软件托管在云上运行,就要做很多优化工作,才能和云更好的结合,更好的让它发挥作用,最终才能让用户拿到更具性价比的红利。又比方说,云厂商会根据客户的普遍需求、或自己以往的积累,完成产品化后,打造更独特的软件能力,这些能力也是跟云有着深度的结合,能够把云的底层能力充分地发挥出来。
总的来说,我觉得今天大家应该改变一个倾向,就是过度关注资源提供。因为最终支持业务去落地实现的是这些应用系统,应用系统大部分情况下是基于软件能力去构建出来的,而不是直接基于裸资源。而且说实话,真正能把裸资源更好地运行起来,是需要一个非常有实力的团队,这样的团队在一些较小规模的公司里是不太可行的。因为技术人员是需要处在一个持续临界状态的工作环境里才能成长。但较小规模的公司过往的技术挑战偏少,这就决定了偏中小的客户、业务偏起步或在快速成长的客户,聚焦在业务成长上会比聚焦在 IT 方面,更具性价比,或者回报更直接一些。
霍太稳:结合孙凯和老韩的介绍,我想上云只是第一步,很重要的是怎样去看待云、使用云。毕玄从你的角度来看,如何用云才能让它的效益最大化?
毕玄:你说的确实是大部分公司上云的过程。大部分公司都是先把原来的东西搬上云,或者可能诞生第一天就用云,第二步才是想着我搬到云上之后,怎么把云用得更好。
其实怎么把云用得更好,关键是看云的优势。云最大的优势永远都是弹性。在弹性这一点上,包括云厂商自己也不断地往前演进,就像云不断地往 Serverless 方向去演进,其实就是为了让大家更好地享受弹性带来的红利。因为 Serverless 会让用弹性的方式门槛更低一些。如果你能把云的弹性优势发挥得非常好,你就完成了用云最关键的第一步。我们去看大部分公司,每一天的业务量不可能都保持在一个峰值,肯定是处于一个波动的状况。在波动的状况下,如果能把云的弹性充分发挥出来,其实用云的成本是更低的。但是如果你纯粹就是我这边固定 100 台,那边云上也是固定 100 台,那确实成本不一定会有优势。因为像中国很多的公司固定需要用的机器,使用时长不会超过 1/3,剩下的 2/3 其实都是可以用弹性来解决的。这个成本会下降的非常夸张。
第二个,很多公司要逐步放弃所有的基础设施、所有的 PaaS 服务都要自己来弄的想法。以前是因为没有人给你提供,但现在搬到云上后,其实云提供了非常多的服务,这就需要你来判断,到底这些服务是我自己构建团队来做,还是说直接用云,对我整体的 ROI 更好。这是第二点需要考虑的。
霍太稳:毕玄提到的 PaaS 层服务,是一个很重要的用云趋势。几位嘉宾能不能借这个场合和大家谈一谈,使用 PaaS 层服务能带来哪些额外的价值?
韩鸿源:类比到企业的 IT 设施,买了服务器之后,上面肯定还是要运行软件的,这些软件能力在云上直接提供是通过 PaaS 的方式,这样客户可以开箱即用地去使用软件层的服务,不需要关注服务本身,不需要为它做开通、管理、维护等各方面的工作。
另一方面,用 PaaS 服务的时候,其实也给了云厂商更多的优化空间。比如开源软件的运行环境很多时候并没有特定的适配工作,放到云上以后,云是有标准化的优势在的,所以可以让它运行的效果更好,同时提升整体的性价比。就像刚才说的一样,其实云今天已经逐渐从只提供资源服务演进到提供更多的软件服务。
从用户的使用习惯来讲,成熟市场里对 IT 使用经验丰富的客户,可能也会更多倾向于用现成的 PaaS 服务,而不是说基于 IaaS 自己去搭建这个服务,因为搭建的过程中需要开销、需要试错,要投入很大时间成本。
所以从这个角度来讲,今天其实云在往前走,就不只是一个资源的问题,还包括了很多其它方面的技术能力,怎样能够让客户更容易的获得、更好的把它用起来、更好的发挥作用。
霍太稳:其实它既是一个降本,也是一个增效的过程。
韩鸿源:应该说更多的“增效”、“降本”,通过“增效”的方式去实现“降本”,最终看能否在业务效果里发挥更大的作用,而不是直接去比较资源消耗。
大模型时代,如何不掉队?
霍太稳:有一个今天“不得不问”的问题,就是关于大模型和人工智能。当然,大模型的出现,包括 Sora、ChatGPT、通义千问等等,都和云是密不可分的。想问问几位嘉宾,在公共云上构建这些 AI 应用或者调用大模型,是不是更有优势,它接下来的发展趋势大概是什么样子的?
毕玄:我觉得这个跟前面讲的 PaaS 服务很像,其实大模型服务你也可以认为很多都是 PaaS 层的服务。在这一轮 AI 之前的上一轮 AI,我们现在称为传统 AI——我们以上一轮传统 AI 来看,不管 NLP 还是其它类型的 AI 服务,云厂商提供的 AI 服务其实也是非常受欢迎的。很少有公司会说,我自己做一个 NLP 服务,或者搭一个图像识别等等。你肯定会想我直接去调云厂商的一个就可以了。因为这种 PaaS 层的壁垒非常高,普通公司其实做不了这件事情。另外背后涉及的成本其实是非常大的,云厂商靠规模分摊之后才能把这个成本压下去。
到了大模型时代,就更不用说了。因为这一轮 AI 相比上一轮 AI,除了产生的价值大很多以外,背后的投入其实也大了非常多。现在,一家中小公司,就算是一家大型公司,你自己要搞个大模型训练一把,然后在上面做结合业务的推理,这个投入是非常夸张的。不光是资源的投入,还包括你的人才梯队的搭建,这太难了。所以我觉得到了这一轮,对云厂商来讲其实优势是更加巨大的,通过 AI 来带动整体公共云的增长,这个趋势是非常明显的。
霍太稳:可以说,这一波人工智能的浪潮是给公共云提供了一个更加适合的场景、更大的场景。
毕玄:对。
孙凯:大模型这波,掌阅跟进的时间点应该是在 2023 年的下半年。当时我们发了一款小程序,现在来看更多是投石问路的、尝试性的一款小程序叫“阅爱聊”,也是围绕读书这个场景,让大家享受边读书、边跟书里面的人物聊天的体验。
在搭建过程中,我们的底层思考是什么?第一点,这是一种创新。我们原来没有做过类似的业务,突然有一波技术浪潮或者一个机会点出现了,我最快跟进的方式是什么?一定是找一个现成的服务提供商一起协作。实际上,我们也跟阿里云做了一些这方面的合作,无论是在 IaaS 层、PaaS 层,还是 API 的调用,我们也都有一些探索。加上我们跟一些其他供应商合作,他们碰巧也是阿里云的客户,也在大量使用阿里云的底层资源和服务。因为他们是创业型公司,在飞速发展过程中也需要快速推进。所以从创新角度来说,这个命题对我和对他们是一样的——在这个阶段,时间就是最宝贵的,效率就是一切。因为在这个阶段,它是个增量性的东西,我觉得增量性里优先考虑的不是成本,这也是互联网过去很长一段时间的逻辑。
到了 2024 年,我们在认真看待这件事情。我还是从业务上讲,它对我来说不是一个投石问路的业务了,我们现在要认真考虑这个业务能给我们的用户带来什么样的价值,不能是玩票似的、仅仅尝试性地去做一个小东西了。实际上我们正在做阅读场景的大升级,希望能围绕阅读和大模型的结合,给行业带来一些新鲜的、不一样的体验。所以,我们也要非常严肃地考虑性能、稳定性、运维成本等等,包括未来对资源的优化空间。我们也在跟阿里云做紧密的协作,我们希望阿里云给我们提供更完善的平台和底层的支持,能帮我们快速去推进下一个创新业务。
韩鸿源:大模型无疑是当下科技行业里最热的话题之一,可能也是云计算新的业务机会。从阿里云的角度来讲,我们提出了“AI 驱动,公共云优先”战略,AI 驱动其实不只是说驱动我们自身,也是希望 AI 能够为客户发挥更大的作用。阿里云会提供各类公司需要的这些环境,不管你是要训模型还是要做推理,甚至说你是要做上层的应用。我们也提供完整的通义模型体系,并持续投入。一方面这验证我们的的基础设施有能力训出优秀的大模型,另一方面我们也提供对外的开放的大模型服务。大家可以看到,其实模型能力从去年下半年开始有了明显的提升,今天应该达到可以在业务里面广泛适用的状态。当我们能提供模型 API 服务的时候,你是不是愿意用 token 的方式跟它交互,而不是说自己去训练模型本身。
在底层的技术上,我们也在不断优化。不管是训练大模型需要的网络环境,还是 GPU 卡联合协作处理高并发的训练工作,我们都会做持续投入。这也能体现出来云的基础资源、存储、网络在一些极限场景下是否能达到更好的效果,这些其实都是非常大的挑战,我们过往跟非常多的模型公司的合作里,也体现出这方面的优势。
到今天为止,非常多的模型公司都选择了在阿里云上去做训练,去承接模型推理后续的相关服务,在阿里云上为公众提供更多大模型服务。我们也希望能支撑好掌阅这样的典型客户一起探索大模型在业务层面的作用。
霍太稳:感谢三位专家的分享。我们今天的主题是云上的降本增效,其实对一个企业来讲,如果能够把投入产出比给他算清楚,结果也就出来了。很重要的一点,成本不仅仅是显性的硬件成本,还要关注管理成本、时间成本,特别是在做创新型业务时,能不能集中精力,我觉得这可能是咱们在决定上云时需要重点考量的问题。
当然我觉得任何一件事从一开始走向成功,中间肯定要面临很多的质疑。但正确的事情始终就是正确的事情,大家需要有一些耐心,在实践的过程中也能够坚定自己的信念。现在我是很难想象说我们喝水的时候还要自己再去挖一口井,那个道路就太漫长了,已经给你做好了自来水,喝起来是非常容易的。希望在这个过程里面大家一块儿去努力。