国思软件 - 快手可灵发布2.0版本：上线多模态视频编辑功能

　　随着 AI 生成视频日渐走红，如何准确将用户心中的想法转化成 AI 视频，成为难题。用户常常发现，仅仅依靠文字很难描述自己的需求。

　　4 月 15 日，快手旗下可灵 AI 宣布，面向全球发布可灵 2.0 视频生成模型及可图 2.0 图像生成模型，快手高级副总裁、快手社区科学线负责人盖坤向澎湃新闻记者表示，“AI 在辅助创意表达上拥有巨大潜力，但当前的行业发展现状还远远无法满足用户需求，在 AI 生成内容的稳定性、以及用户复杂创意的精确传达上仍有很多挑战。”

　　此次 2.0 版本的迭代中，最受关注的便是多模态视频编辑的新功能：可灵 AI 使用全新交互理念 Multi-modal Visual Language（MVL），让用户能够结合图像参考、视频片段等多模态信息，将脑海中包含身份、外观、风格、场景、动作、表情、运镜在内的多维度创意，高效传达给 AI。同时，用户可以直接把自己的想法用图像等方式表作为输入，生成符合自己想法的创意视频。

　　盖坤介绍，MVL 由 TXT（Pure Text，语义骨架）和 MMW（Multi-modal-document as a Word，多模态描述子）组成，能从视频生成设定的基础方向以及精细控制这两个层面，精准实现 AI 创作者们的创意表达。他表示，MMW（多模态描述子）将不只局限于图片和视频，也可以引入其它模态的信息，例如声音、运动轨迹等，让用户实现更加丰富的表达。

　　数据显示，自去年 6 月发布以来，可灵 AI 已累计完成超 20 次迭代。来自世界各地的超 1.5 万开发者和企业客户，将可灵的 API 应用于不同的行业场景中。自去年 6 月上线至今的 10 个月时间里，可灵 AI 的月活用户数量增长 25 倍，截至目前，全球用户规模突破 2200 万。

　　据盖坤介绍，可灵和可图两款模型在团队内部的多项胜负率评测中，均稳居业内第一。例如在文生视频领域，可灵 2.0 对比谷歌 Veo2 的胜负比为 205%，对比 Sora 的胜负比达 367%。

　　值得注意的是，当前图生视频约占到可灵 AI 视频创作量的 85%，图片质量也对视频的生成效果产生重要作用。

　　据快手副总裁、可灵 AI 负责人张迪介绍，可图 2.0 文生图能力也迎来全面升级，在风格化响应上，可图 2.0 可支持 60 多种风格化的效果转绘，模型出图创意和想象力实现大幅跃升。

　　同时，可图 2.0 也上线图像可控编辑功能：局部重绘和扩图，支持图片的增加、修改和修复。在图像的多模态可控生成中，可图 2.0 还上线风格转绘功能，只需要上传一张图片加上风格描述，就能一键切换图片的艺术风格，同时精准保留原图的语义内容。

　　除C端订阅用户，可灵 AI 也面向B端商家提供 API 接入等服务。目前，可灵 AI 已与包括小米、亚马逊云科技、阿里云、Freepik、蓝色光标等在内的数千家国内外企业客户建立合作关系。

　　在营收数据方面，快手 2024 年三季度财报数据显示，可灵 AI 在 2024 年 9 月实现月活超 150 万；商业化单月流水也超过千万人民币。另据 2024 年快手四季度及全年财报，自可灵 AI 开始商业化变现至 2025 年 2 月，可灵 AI 的累计营业收入已经超过 1 亿元。

　　AI 视频是互联网公司集体发力的赛道，去年 12 月，腾讯混元大模型发布 AI 视频生成大模型，同时宣布开源，参数量达到 130 亿，为当时最大的视频开源模型，字节跳动、MiniMax、智谱 AI 等国内大厂和头部初创公司也推出了相应产品。

快手可灵发布2.0版本：上线多模态视频编辑功能

我们的产品

相关链接

关于我们

联系我们