字节技术大牛跑步进入AIGC创业,聚焦视觉领域,搭建算法平台

  衡宇发自凹非寺

  量子位公众号 QbitAI

  3 月最后一天,王长虎在龙湖集团的 last day。

  这位字节跳动前视觉技术负责人、AI Lab 总监辞职挂印,火速启程下一站:AIGC 创业,成立新公司爱诗科技。

  他拉团队自起炉灶,要打造一个聚焦 AIGC 的视觉多模态算法平台,覆盖视觉相关的各种垂直应用场景。

  当此大热的 AIGC 风口,王长虎已经是近期第N位勇闯创业潮的 AI 牛人。

  聊起这事,王长虎说话间不自觉就提高了声音,语速也更快。他提到,创业是受时代和内心的双重感召,而且在风口和经历背书的双重加持下,目前看来,早期的融资推进颇为顺畅。

  关于创业要干的事,他信心饱满:技术难点?一定有,但也是好事,它就是我们不断形成竞争壁垒的机会,就是这时候需要我们去做的。

  而且我们真的是打过硬仗的,之前在字节,那么难的事情都被我们扛过去了。所以在新的应用场景里边看到难点,蛮兴奋,看到了,就去解决它。

  (“那么难的事情”,指对字节系短视频产品从0-1 进行建设)

  支持 AIGC 全生命周期的视觉多模态算法平台

  在 ChatGPT 引爆的 AIGC 创业风潮后,王长虎的切入点不是底层大模型或 To C 应用层。

  而是基于过去近 20 年的学术研究和技术应用能力,杀入中间层,打造视觉多模态算法平台,将焦点聚集在 AIGC 相关视觉领域的各个垂直应用场景。

  并且在初始阶段,To B 先落地践行。

  所包含的多模态具体样式,根据视觉垂类领域应用的需求,初步设定为文字、图片、语音、视频,以及用户的个性化特征等,也是 AIGC 领域不断涌现新能力和产品的载体。

  根据王长虎的解释,利用 AI,可以完成从 UGC 到 AIGC 的内容新升级。

  “很多人关注 AIGC,更多关注在内容生成方面。”从王长虎视角看过去,内容生成只是 AIGC 全生命周期的一个阶段,“其余阶段也有很多问题等待去解决。”

  “很多问题”是哪些问题?

  他结合此前经历,举例了两个 UGC 时代代表性场景来佐证他所说的内容生成之外,AIGC 时代生产链的其他环节很大可能会遇到相同难题。

  一个是在日活 6 亿,正负样本极不均衡的抖音或 TikTok 平台上,根据不同文化背景、具体要求等,必须要筛选出不合规的视频进行拦截,且需精准快速。

  AIGC 时代,这样确保安全的审核同样重要,且审核需求量更大。视觉多模态算法平台提供的算法,就包含了能够帮助使用方提高筛选和拦截效率的那种,并且很有可能如当初的字节一般,在王长虎提供的技术支持下代替成本高昂的人工审核,同时提升效率。

  另一个场景是抄袭频发。AIGC 时代,创作门槛降低,作品数量爆发,抄袭现象和版权纠纷大概率显著上升。

  UGC 时代已经验证过,长此以往,不仅打击原创者的创作意愿,对平台生态不利;而内容雷同或完全相同的视频持续推荐,用户体验也会大打折扣。

  针对这个场景,王长虎要做的平台,就能为用户侧提供减少类似或雷同视频分发的 AI 算法。

  他还表示,这个聚焦 AIGC 的算法平台搭建过程中,很大可能会利用 AIGC 技术提升效率。

  上述所有都是王长虎的现阶段思考,他才正式离职,刚刚开始筹备新公司事宜,新公司名为爱诗科技。

  粮草先行,目前组建了 10 余人的初始团队,也在招募核心技术和产品人才,为真正踩下出发的油门蓄力。

  梳理他言语间透露出的规划,能嗅到关于创业项目的信息点:

  搭建这样一个视觉多模态算法平台,能够支持 AIGC 新内容,帮用户解决内容生成、安全、版权、分发、商业化等几乎全生命周期的各项问题。

  新的 AI 浪潮到来,王长虎身处其间,感知到变化,并打算在新事业从善如流地用上旧经验,包括但不限于 GPU 集群能力、服务调度能力、自动化模型训练能力,推断能力等。

  经验不会凭空出现,既有功力的来源,主要可以定位回他在字节跳动任职期间。

  2017 年,王长虎加入字节跳动。那时候人们对字节的感知,通过今日头条远大于通过抖音。王长虎加入之初,就是在字节内部创业般,从 0 到 1 深度参与建设短视频类产品。

  此次 To B 和 To C 层面可能遭遇的各种问题,如降本增效、版权厘清、用户体验等,王长虎都在那时以技术或实现或改善或解决。

  再一次“从 0 到 1 建设技术平台和产品”,王长虎表示,上述经验都可以一以贯之应用在此次 AIGC 创业。

  与 AIGC 缘起 20 年前的本科研究

  新公司还在襁褓,王长虎不愿过多详谈,他更愿意谈论的是此前的技术经验,当然也包括“技术底色上滋养出的 AI 情结”。

  这要从王长虎还是中国科学技术大学 6 系(电子工程与信息科学系)大四学生时聊起。

  那是 2004 年,他做了人生首个研究,即根据一张或多张人脸图片,生成该人脸的 3D 模型。此研究后来发表到国际会议上。

  他不无兴奋地说:回看 20 年前,我此生做的第一个研究,就和 AIGC 有关。

  同年,王长虎进入 MSRA 实习,中科大博士毕业后转为正式员工,直到 2017 年离开。

  13 年间的工作内容也与 AIGC 有千丝万缕的联系,他所在团队研究的“神笔马良”草图搜索技术,可以基于海量图像数据建立搜索引擎。

  当然,那时候生成式技术没有成熟,业界对大规模数据的训练和处理经验也远不如今日丰富,所以整个过程是在海量数据库中寻找和草图最匹配的那一张。

  回忆此处,王长虎的语气中多少带了些感慨,因为现在的范式也是基于海量数据去训练一个模型,然后根据用户输入的文字或图像信息,生成一张最匹配 prompt 的图片。

  草图搜索技术示例

  都说十年磨一剑,但在微软实习和工作 13 年后,王长虎毅然奔赴字节跳动,选择的还是当时并非招牌的视频类产品。

  为什么去字节?毕竟王长虎自己也承认,在微软可以做世界上最顶尖前沿的科学研究。但在微软,科研项目应用到公司产品需要的周期特别长。

  他举例分享,自己二零零几年做的工作,若干年后才真正应用在必应搜索引擎,新技术很难在第一时间影响用户。

  但这一点在字节可以实现,再加上加入字节时,恰巧是短视频类产品筚路蓝缕打根基的时候——这也是字节 AI Lab 与其他大厂 AI Lab 的区别所在,即并非在产品成熟后才建立 AI 部门,也因此,王长虎有机会在产品 0 到 1 发展历程中扮演核心角色。

  公开资料显示,字节跳动人工智能实验室(AI Lab)的成立使命,就是推动机器智能的极限,致力于将 AI 理论研究快速应用于产品部署。

  现在翻看王长虎公开简历,字节任职期间,留下的足迹如下:

  • 完整参与了抖音和 TikTok 等短视频类产品从 0 到 1 的建设和发展;
  • 建设了视觉技术和业务中台,带领团队将相关技术广泛应用到字节跳动全线产品中;
  • 为集团各产品提供AI 技术支撑和业务解决方案,覆盖了视觉相关产品内容生产与消费的全流程

  期间,他搭建的数百人团队,不仅有技术人员,还包含了产品同学。如果把微软看成王长虎的技术练兵地,王长虎就把字节和龙湖的经历,看成是对他技术和产品两方面认知的锻炼。

  王长虎

  和从字节去龙湖的原因一样,选择加入 AI 2.0 创业大潮,他的理由是“跳出舒适区”。

  当然,这一次的催动因素更复杂,譬如 ChatGPT 和 Stable Diffusion 的惊艳表现,以及自己从 DL 热潮走来,对又一次“翻天覆地变化”的不容错过。

  他说,这个机会更大,不像元宇宙、区块链是被一部分人看到,AIGC 是多数普通人能看到和感受到的。言语间,王长虎又传递出自己对“新技术快速影响用户”的看重。

  如今离职创业,他又有机会身体力行地这样做了。

  参考链接:

  [1]《草图搜索的魅力与挑战》https://blog.sina.com.cn/s/blog_4caedc7a0102en29.html