快手上线自研文生图大模型“可图”,参数规模达十亿级

  界面新闻记者肖芳

  界面新闻编辑宋佳楠

  5 月 30 日,界面新闻从多位知情人士处获悉,快手自研文生图大模型“可图”已于近日正式对外开放。“可图”大模型目前支持文生图和图生图两类功能,可用于 AI 创作图像以及 AI 形象定制。用户可通过“可图”微信小程序和网页版使用,这也是快手首次将其自研的系列大模型对外开放。

  据一位接近快手的人士透露,去年年初,快手组建了大模型研发团队,并依托其在 AIGC 算法和大规模语言模型方面的技术积累进行大模型开发和训练,包含大语言模型、文生图大模型、视频生成大模型等多个方向,负责人为技术副总裁张迪。从组织架构上看,快手大模型团队隶属于快手社区科学线。

  “可图”大模型的参数规模达十亿级,这些数据来自于开源社区、快手内部构建和自研 AI 技术合成,覆盖了常见的千万级中文实体概念,还引入强化学习和奖励模型技术(RLHF),解决了文生图大模型在长文本和复杂语义文本输入下的效果问题。

  实际上,去年 9 月,“可图”大模型平台已在快手开启内测,面向内部业务团队提供支持。快手在 App 评论区内测的“AI 玩评”和“AI 小快”等多种互动玩法集合了文生图、图生图、扩图等多个功能,依托的也是“可图”大模型的能力。

  从已上线的功能来看,“可图”主要面向消费端用户,提供一系列互动玩法和热点应用。比如,“AI 形象定制”即图生图功能,可通过人脸保持技术,保留人像的自然特征,一键生成不同风格的人像作品。但在产品模式上,与妙鸭相机等主打写实人像的产品不同,“可图”更侧重趣味性,支持用户上传图片生成复古像素风和童年写真,也涵盖了当红的黏土风特效及主打写实人像的“韩式写真”等模式。

  同时,“可图”大模型也可为创作者提供工具化能力,辅助创作者的图像、视频素材的创作和生产。

  在 2024 年一季度财报电话会上,快手 CEO 程一笑曾表示,今年一季度,快手稳步推进自研大模型各项性能的迭代提升,并且加快大模型在各业务场景的应用。近期,快手也正式推出了第一个多模态大语言模型。

  据界面新闻了解,快手内部今年明确了大模型应用策略,主要包含理解、互动和生成三个方向,具体的应用场景包括全域大模型内容理解、AI 互动、商业场景的数字人与 AIGC 等。此次发布的“可图”就是快手大模型应用策略中重要一环。

  目前,AIGC 辅助生成营销素材已经被抖音、快手、爱奇艺等多个平台应用。其中,使用字节跳动 AIGC 能力进行营销增长的企业超过 3000 家,而快手第一季度 AIGC 营销素材单日消耗峰值已突破 1000 万元。