字节的AI要跳动向何方

  文窄播 ,作者李威

  进入 2024 年,字节跳动才开始围绕大模型全面摆开阵型,呈现出咄咄逼人的进攻态势。

  一方面,在 2023 年 8 月上线的豆包之外,字节跳动进入 2024 年后开始持续爆兵,推出了 AI 应用开发平台扣子、AI 学习伙伴河马爱学、AI 剧情互动产品猫箱、AI 生图产品 PicPci 等面向国内、海外不同市场的众多 AI 产品。

  另一方面,字节跳动在 5 月 15 日正式发布豆包大模型(原云雀大模型)时,将主力模型的定价降到 0.0008 元/千 Tokens,比同类产品直接便宜 99.3%,随后阿里、百度、腾讯、科大讯飞等大模型厂商纷纷宣布降价,彻底拉开了大模型价格战时代的序幕。

  同时,最新的消息显示,字节跳动还在围绕 AI 硬件进行布局。其中一条产品线聚焦可穿戴 AI 设备,以刚刚被字节跳动收购的耳机品牌 Oladance 团队为基础进行探索;另一条产品线负责探索手持类 AI 设备,更接近对现有主流计算设备的 AI 化延展,成立更早,与 AI 应用团队 Flow 也更紧密。

  字节跳动已经构建起一个包含应用软件、AI 硬件、基础大模型、云服务的面向大模型时代的完整基础设施。依托这个布局完整的 AI 基础设施,汇聚在移动互联网时代 APP 中的、庞大且活跃的用户群体,能够被转化为字节跳动冲向 AI 时代的能量源泉,为其在大模型时代的尝试提供用户基础和商业化支撑。

  更接近C端用户是目前支撑字节跳动攻略 AI 时代的最核心优势。按照字节跳动 CEO 梁汝波所说,字节跳动公司层面的半年度技术回顾,直到 2023 年才开始讨论 GPT。这种迟钝的反应让字节跳动失去了围绕大模型技术进行争锋的先机,利用手中的C端用户资源卷向大模型应用,是字节跳动在技术劣势尚未逆转前的唯一选择。

  与创业公司需要从产品起步不同,字节跳动面向C端做大模型应用,搭建生态应该比开发产品更重要。移动互联网时代,字节跳动的今日头条、抖音等产品都是建立在安卓与苹果的移动互联网生态之上;大模型时代,字节跳动有机会在自己的流量基础上搭建起一个智能体生态,替代安卓或 iOS。

  不只是字节跳动,所有移动互联网时代的大厂都需要思考如何在大模型时代延续市场统治力的问题。大的时代变革下,旧有的优势需要及时转化为未来的机会,看到眼前的利益之外,每个大厂都需要提前锚定自己在未来所处的位置。

  没有流量是万万不能的

  国内大模型领域的竞争开始卷向应用之后,呈现出 to B 和 to C 两个方向。在B端,相当一部分行业场景还处在从数字化向智能化的过度阶段,相应场景数据需要进行梳理、整合、关联,才能实现对大模型能力的更有效应用。尽管客服、营销等 to B 场景中出现了一定的需求,但短时间内,大厂在C端的竞争可能会更为激烈。

  C端用户才是当下互联网大厂的根基所在。大厂 to B 的起因是移动互联网的C端用户增长见顶,需要找到新的增长领域,然后才依托领先的产品技术和庞大的用户数量拿到了参与产业数智化转型的门票。现在,大模型有望重构当下的信息服务范式,围绕 AI 搜索、AI Agent 的探索打破C端市场格局的稳定性。

  流量是决定C端竞争成败的赛点。字节跳动通过抖音和今日头条牢牢把握住了移动互联网时代的一大入口,并依托流量池延展出了广告、电商、本地生活等业务,然后又让飞书、火山引擎等 to B 业务沿着业务连接不断深入到不同行业场景中。现在,字节跳动又在尝试利用这个流量催熟自己的 AI 产品。

  作为字节跳动的首款 AI 产品,豆包于 2023 年 8 月上线。据 QuestMobile 统计,到 2023 年 11 月,豆包的活跃用户为 1143.89 万,快速反超了百度更早发布的同类型产品文心一言。2024 年 1 月,豆包的活跃用户增长到 1756.9 万;字节跳动 5 月 15 日公布的最新数据显示,豆包的月活跃用户数达到 2600 万。

  这个快速地增长过程中,来自抖音的高效流量支持发挥了重要作用。当大模型竞争放弃卷参数,开始围绕应用展开时,触达用户的规模和效率决定了活跃用户的增长速度。抖音是当下最高效的流量获取途径,豆包在抖音上利用内容场的投放,面向更多潜在用户充分透传了产品优势。

  某段时间内,一位以轻缓语调介绍如何用豆包的旅行博主,会在我刷抖音时频繁出现。现在打开她的抖音主页可以看到,在 2023 年 11 月到 12 月间发布的 5 条关于豆包的视频,点赞数都已过万,最高的一条点赞超过 120 万,而在其他视频下,点赞数往往都在几百左右。

  高效之外,字节跳动的流量池还具备更强的全球化属性。字节跳动是少有的在全球市场孵化出头部应用的国内互联网大厂,在面向全球市场进行产品开发、发布、推广时具备更丰富的经验。也因此,字节跳动的 AI 产品往往都具有国内和海外两个版本,比如豆包的海外版本是 Cici,扣子的海外版本是 Coze,AI 工具合集小悟空的海外版本是 ChitChop……

  尽管 TikTok 在美国受到了打压,但对处于起步阶段的 AI 产品而言,仍然是一个足够用的流量池。而且,进入到大模型时代,字节跳动的全球化野心并没有被挫折浇灭,反而可能会变得更为炽热。在移动互联网时代,迟来的字节跳动没有构建更底层设施的机会,现在手握庞大流量的字节跳动等来了更大的机会。

  成为 AI 开发者的新温床

  这个更大的机会就是让字节跳动成为大模型时代的应用生态的底层支撑,就像安卓和 iOS 之于移动互联网时代一样。一切正如豆包在抖音上的推广介绍中强调的,只要安装了豆包,手机里的大部分 APP 就都可以被删掉了。

  如果说上一个阶段字节跳动成为「APP 工厂」,是要将高效的短视频流量转化为黏性更强的社交流量,那么现阶段字节跳动这座「APP 工厂」的目标则是将高效的短视频流量转化成为孵化大模型应用的温床,在字节的流量基础上打造出一个大模型时代的开发者生态。

  字节跳动目前展露出的 AI 布局,也在一定程度上验证了这种野心。未来,应用的分发和调用可能不再需要有一个专门的商店,但一定需要有一个核心的场域汇聚大部分人和需求,还有一套门槛更低的应用开发设施作为支撑。对于字节跳动而言,这个场域需要形成完整的商业链条,这套设施就是引发大模型价格战的火山引擎。

  火山引擎推出的企业级 AI 应用开发平台扣子专业版,能够帮助企业打造自己的 AI Agent,并通过飞书、微信等平台发布,或通过 API 搭载到终端硬件设备上。火山引擎总裁谭待在介绍 AI 应用开发平台扣子专业版时表示,应用的生态是一堆人的群体智慧,必须要一个扣子这样的低代码生态,要能够让很多人以很低门槛做各种事情。

  字节跳动推动推理算力大幅降价,从以分计价过渡到以厘计价,在算力层面也进一步降低了开发者探索门槛,直接促进大模型开发者生态的壮大。在这个过程中,字节跳动基础大模型也会因使用数据和反馈的增加而得到更好打磨,从而进一步降低推理成本,在技术上形成一个良性循环。

  从短期来看,AI 开发者生态的繁荣,将帮助火山引擎实现对百度、阿里、腾讯云服务的追赶和超越。从长期来看,吸引足够多的 AI 开发者进入到字节跳动的生态中,可能会是在特定场域中构建商业链条的起点。成本够低,开发者够多,应用够丰富,那才能够进入到谈利益的阶段。

  而这个场域中的商业生态可能不会一下进入到付费模式。用户方面,国内没有养成很强的付费习惯;产品方面,成功产品的仿效成本太低,可能很快会进入到低价打高价,免费打低价,补贴打免费的阶段。Sensor Tower 的统计显示,作为国内最早提供付费订阅服务的 AI 助手,百度文心一言上线一年的应用内购买和订阅不足 50 万美元。

  付费的路不好走通,AI 应用想要走免费路线,就需要成为完整商业链条上的一个环节,从整个商业链条的运作中分得收益。围绕内容进行的商业化运作是比较成功的免费商业模式,而字节跳动又是其中的佼佼者。因此,字节跳动有在某个场域中建立新的商业链条的资源储备与经验积累。

  从短视频到 AI 应用

  移动互联网时代一个商业化场域的运营核心是流量。人汇聚成为流量,流量是需求的集合体,平台依靠算法将不同标签下的流量导入到对应的商业场景中,从而跑通整个商业链条。也因此,内容和社交成为了聚集人的最大场域。内容依赖高用户时长提升商业容量,社交则靠关系形成利益的勾连通路。

  大模型时代,算法可以兼顾每个人的个性化需求,需求不再需要以流量的形态具现化出来,而是通过 AI 直接关联到解决方案,也就是不同的以 Agent 形态存在的 AI 产品。这也就意味着,AI 产品可能会取代流量成为新的商业基石。这种情况下,核心场域的模样将决定商业链条的逻辑。

  让字节跳动在移动互联网时代获益颇丰的场域是内容之下的短视频。在向大模型时代进行过渡时,这个场域仍将继续发挥作用,像催熟豆包一样,利用自己的流量体系催熟更多 AI 应用。甚至有可能让抖音融合豆包,成为 AI 应用的聚集场域,而短视频内容仅作为 AI 应用出现在其中。

  当然,如果真的出现了聚合丰富 AI Agent 的抖音助理,那字节跳动在 AI 硬件方面的探索也会找到用武之地。无论这个 AI 硬件的形态是耳机、眼镜,还是手持硬件,还是其他并未出现的形态,抖音助理都会拥有一个连接物理世界的入口。这就像 iOS 拥有了 iPhone,形成了一个可以构建商业链条的闭环。

  再大胆假设一下,对于字节跳动而言,如果能够将短视频的流量优势彻底转化为 AI Agent 的分发优势,那豆包大模型的能力是否会变得不再重要,入口之内有足够的空间容纳更多基于其他大模型生成的 AI Agent?那未来决定入口归属的究竟是大模型能力,开发者生态,还是硬件形态?