国思软件 - AI视频突飞猛进这一年，国产之光可灵AI笑到最后

　　这样一张照片，是实拍还是 AI 生成？

　　2024 最火 AI 爆款可灵，年末又卷了一波：

　　旗下文生图模型——可图，完成了 1.5 版本升级，分分钟生成平面大片。

　　还推出了“AI 模特”等全新功能。

　　搭配 AI 换装（原 AI 试衣），奇迹暖暖的快乐谁又懂了(doge）。

　　不得不说，上线半年，可灵 AI 不仅在视频生成赛道上引领全球风潮，产品体验也越来越全面。

　　实际上，AI 视频被引爆的这一年，虽然笑在最前的是 OpenAI 的 Sora，但论笑到最后笑得最好，可能非可灵 AI 莫属。

　　在 2024 这一年里，可灵率先成为了全球首个用户可用的视频生成大模型，并且在短短 6 个月已经历 10 余次迭代——平均每个月有两次以上新动作。

　　AI 视频领域，都是被可灵 AI 支配的一年。

　　可灵 AI 上新「年末大礼包」

　　总结之前，我们还是先拆个箱，康康可灵 AI 准备的年终礼物，顺带实测一波~

　　第一样就是全新上线的可图 1.5 图像模型。

　　这次主打「画面质量」和「人像美感」再上新台阶。

　　话不多说，我们打开可灵 AI 中文官网，点进 AI 图片页面，并切换到最新可图 1.5 模型。

　　第一关当然是人像生成。为了上难度，我们特意丢给它一大堆摄影专业名词：

一位身着红色长裙的舞者，背对镜头，头微微侧转至四分之三角度，柔和的聚光灯（暖光）洒在她的侧脸上，凸显出精致的轮廓。她的裙摆随风轻扬，周围是飘散的红色花瓣，仿佛在空中翩翩起舞。背景是一片深邃的黑暗，只有几束冷光从侧面投射，形成强烈的冷暖对比。舞者的手腕上戴着一串金色的手链，反射出微弱的光芒。大光圈拍摄，花瓣在空气中呈现出动态模糊的效果，仿佛时间在这一刻凝固。

　　OMG，效果一出来，确实令人惊艳。（更像写真而不是一眼 AI）

　　擦亮双眼又仔细对照一遍提示词，几乎 100% 还原了。

　　而且可以看到，整体构图和光影很协调，画面真实自然，很像大家生活中拍的艺术写真。

　　五个字：美就完事了！

　　当然除了人像，我们也进一步考察了可图 1.5 对更丰富的细节层次的掌控程度。

一座古老的江南水镇，夜幕降临，青石板路被细雨打湿，映出朦胧的倒影。一艘乌篷船静静停靠在石桥边，船篷上覆盖着斑驳的茅草，船内摆放着竹制茶几和青瓷茶具，透出古朴的韵味。船头悬挂着一盏纸灯笼，散发出柔和的红光，与水面上的倒影交相辉映。

　　很好，画面感这不就来了。看来江南水镇、青石板、乌篷船……这一连串细节也难不倒它，不仅色彩还原自然，而且层次感丰富。

　　一连串试玩下来，先给可图 1.5 的“审美能力”盖个章。

　　对了悄咪咪透露，以上生图过程都是免费的，新用户送了 366 个积分，一张图竟然只消耗 1 积分。（玩的时候还惊了一下，一下子可以免费生成几百张大片）

　　与此同时，我们也测了一波“AI 模特”功能，目前主要看到电商&创意营销以及网友整活两种玩法。

　　先说整体印象，第一次接触这个功能就发现操作非常简单，几乎人人都能立马上手。

　　以电商场景举例，我们可以直接选想要的模特类型（包括性别、年龄、肤色），并自由添加描述。

　　这里要插一句，如果不知道如何描述，还能点击“推荐尝试”，直接用模板或照着模板改。

　　多次尝试后发现“AI 模特”出图非常稳定，搭配“AI 换装”后，感觉非常有希望取代需要店家花钱的真人实拍。

　　这还不算完，我们再叠一个 buff——可灵图生视频能力。

让模特转身，展示身上服装搭配。

　　可以看到，商品展示不用进棚就能分分钟“拍摄”完成。

　　这下，从模特生成到商品动态视频展示一站式搞定，直接省下了团队、设备、摄影棚和后期剪辑的成本。

　　顺便一提，可灵 AI 这次还新增了尾帧生成能力，并升级了对口型功能。

　　前者指可灵 1.5 模型（图生视频）高品质模式下，已支持仅使用尾帧向前生成 5 秒或 10 秒的视频（类似只给一个大结局，AI 猜前情）。

　　后者指为了使人物配音更加生动自然，新增 10 款高品质音色，并加入了 7 种不同情感的选择（包括高兴、悲伤、愤怒等）。

　　看完上述新功能，网友们想要整活的心也是拦不住了。

　　好家伙！马斯克也爱上了东北大花。（bushi

　　皮衣老黄变身“皮草老黄”可还行。

　　总之大家已经在期待可灵 AI 的 2025 年了。

　　6 个月迭代 10 余次，可灵 AI 的“爆款”之路

　　可灵 AI 这波可以说是从年中卷到了年末。

　　从市场的角度观察，尽管在 2024 年率先掀起视频生成模型革新浪潮的，是 OpenAI 的 Sora。

　　但若要论 2024 年 AI 视频生成领域的最大赢家，可灵 AI 却是当仁不让的答案。

　　根据官方数据，7 月份，可灵 AI 上线 1 个月，就有“超 50 万人申请，开放给超 30 万用户使用，生成超 700 万条短视频”。

　　截至 12 月 10 日，可灵 AI 用户量已经超过 600 万，累计生成超 6500 万个视频和超 1.75 亿张图片。

　　国内，从微信指数来看，在 6 月份可灵 AI 正式发布之后，2024 年下半年可灵 AI 热度已经压过了 Sora，仅在 OpenAI“双 12”期间，Sora 终于落地兑现之时被短暂反超。

　　海外，根据 Similarweb 数据，截至 9 月 24 日，可灵 AI 总访问量已达 3370 万次。11 月份最新数据则显示，可灵 AI 单月总访问量超过 900 万，超过 Runway 的 700 万和 Pika 的 500 万，是视频生成应用中当之无愧的“当红炸子鸡”。

　　此前，Stability AI 前 CEO Emad Mostaque 也曾感叹：中国 AI 视频生成这次已经遥遥领先。

　　事实上，尽管发布晚了 4 个月，可灵 AI 却是第一个真正做到让视频生成新范式大饼落地、人人可用的 AI 视频生成产品，也从一开始就奠定了最前沿技术实实在在产品化、商业化的基调：

　　6 月 6 日，文生视频功能“上线即可用”。

　　7 月 6 日，WAIC 2024 上，可灵 AI Web 端在千呼万唤中火速上线，现场氛围被认为“可能是本届 WAIC 上欢呼最多的一场发布”。

　　7 月底，可灵 AI 全面开放内测，并面向全球上线会员体系。到了 8 月 23 日，OpenAPI 也上线推出，开启B端合作。

　　在 2024 年第三季度业绩电话会上，快手 CEO 程一笑透露：

目前可灵 AI 的商业化单月流水超千万人民币，进展符合我们的预期，未来我们还将探索更多元的变现模式，我们有信心在明年实现可灵收入规模的快速增长。

　　所以，回顾过去 6 个月，可灵 AI“爆款”之路如何进阶？核心关键词已经逐渐清晰：快速、可用。

　　具体可以分为几个方面来看。

　　产品功能

　　首先，是产品功能的快速完善，和产品矩阵的稳步搭建。

　　6 月 6 日发布即上线，可灵 AI 就支持生成 2 分钟、30fps 的视频，并且支持多种宽高比。

　　15 天之后，可灵 AI 正式推出“图生视频”功能，并发布业内领先的“视频续写”功能。

　　值得一提的是，图生视频功能拥有很强的逼近世界运行规律的能力，还表现出了很强的泛化能力。

　　比如水墨画这样的数据其实在可灵训练过程中接触非常少，但加上简单的提示词，可灵就能让水墨画中的动物自然、真实地运动起来。

　　7 月 6 日，可灵 AI Web 端上线，进一步把视频生成、图像生成和编辑服务一站式化。

　　7 月下旬，英文 Web 端 KingAI.com 面向全球发布，也标志着可灵成为首个全球用户可用的真实影像级视频生成大模型。

　　时间来到 9 月份，可灵 AI 依然更新不断：

　　“运动笔刷”功能上线即爆火，在等社交平台上刷屏。

　　△图源：@Ror_Fly

　　还推出了“对口型”等功能。

　　11 月，可灵 AI 推出独立 APP，形成多端跨平台产品矩阵。

　　同时继续在功能上解决 AI 视频生成痛点：AI 定制模型（人脸模型）上线，攻克人物一致性难题。

　　基础模型能力

　　从技术角度值得关注的是，支撑产品快速进化的，是可灵 AI 团队坚实的基础模型能力。

　　6 月上线的版本，是基于可灵 1.0 模型。Web 端上线时，就已迎来基础模型的升级，包括画质提升：

　　生成时长扩展到一次 10s，以及首尾帧控制和镜头控制等可控性升级。

　　9 月 19 日，也就是可灵上线第 3 个月，可灵 1.5 模型推出。在快手内部测评中，1.5 版本相比于 1.0，整体效果提升了 95%。

　　具体而言，相较于可灵 1.0，可灵 1.5 模型在提示词理解、物理规律、画面动态质量上均有提升。

　　且就在 12 月 19 日，可灵基座模型再次升级，1.6 版本模型现已上线。

　　3 个月左右一个大版本更新的同时，从可灵 AI 团队公开发表的一系列论文中，也可以一窥其技术积累。

　　比如和中科大、北京大学联合发表的《Towards Precise Scaling Laws for Video Diffusion Transformers》，探索了 Scaling Law 在视频生成模型中的准确建模，率先提出新的 Scaling Law，以实现视频扩散模型中，对模型大小和最佳超参数的准确预测和计算。