AI视频进入「生产线」调研

  作者 | 郑敏芳

  编辑 | 松壑

  年初,Seedance 2.0 的亮相,点燃了 AI 视频参与影视工业化流程的可能。

  随着短剧、广告、电商等场景开始尝试将 AI 视频纳入实际生产流程,AI 视频模型正在从刷分走向干活阶段。创作者更关心的也不再只是模型参数和榜单表现,而是模型能否稳定出片、支撑连续镜头生成,并最终嵌入一套可复用、可协作、可交付的工作流。

  字节跳动旗下 Seedance 2.0 正是在这一背景下受到关注。

  “相比不少模型对提示词精细度要求较高,Seedance 2.0 即便面对较短、较抽象的提示词,也能在内部扩写成更专业、更详细的描述,把普通人的表达翻译成模型能够执行的镜头语言,从而降低用户使用难度。”西安一位短剧从业者向华尔街见闻·全天候科技感慨道。

  与此同时,快手可灵、阿里的 HappyHorse 仍在加速迭代;爱奇艺纳豆、群核科技 LuxReal 等玩家则从工作流、数字资产、3D 空间和协作工具切入;生数科技、爱诗科技、MiniMax、商汤等垂直玩家也在继续卡位。

  模型、平台、工具链等各类玩家同时下场,AI 视频赛道正在变成一条拥挤且高速发展的赛道。

  

  刷分失效

  从厂商层面看,竞争梯队正在快速拉长。

  互联网大厂方面,字节有 Seedance(即梦),快手有可灵,阿里有 happyhorse。

  除主流互联网公司外,长视频平台爱奇艺也已下场,推出面向短剧专业制作的全流程 AI 创作平“纳豆”。

  在大厂之外,垂直玩家同样密集涌入:生数科技的 Vidu、爱诗科技的 PixVerse(拍我 AI)、MiniMax 的海螺、群核科技的 LuxReal、商汤的 Seko 等,纷纷围绕这条赛道展开卡位。

  但热闹的另一面是,当 AI 视频开始从模型演示走向真实生产线,外界对模型能力的判断标准也在发生变化。

  过去一年,围绕 AI 视频模型的各类榜单越来越多,模型排名、样片对比层出不穷。这些榜单在一定程度上放大了行业热度,也让外界更直观地看到不同模型之间的能力差异。

  但问题在于视频生成一旦进入短剧、广告、内容工业化等真实生产流程,模型要面对的就不再只是“能不能生成一段好看的样片”,而是能否稳定生成一段具有画面质感、动作流畅、人物主体一致性等的素材。

  这些能力很难被一套自动化榜单完整衡量。

  因此,在当前阶段,不少厂商内部已经开始弱化机器自动评审视频效果,更加侧重于人工评价和真实场景反馈。对于下游创作者而言,一个模型是否真的好用,往往不是看它在榜单上的排名,而是看能否在连续生产中减少返工、提升出片效率,并真正进入工业化流程。

  某种程度上,这正在复现大模型 Agent 赛道中已经出现过的“刷分失效”。

  在 Agent 刚刚兴起时,行业同样热衷于用排行榜衡量模型能力。但随着 Agent 从对话和演示走向真实工作流,外界很快发现许多榜单分数并不能直接对应实际可用性。

  原因在于,Agent 真正进入“干活”阶段后,面对的往往是多步骤、长链路的决策和执行,需要理解目标、拆解任务、调用工具等,并在过程中不断修正路径。

  但现有评测体系很难完整测试这种长任务的能力。

  从这个角度看,Seedance 2.0 受到关注正是因为它已经开始被嵌入真实生产流。

  

  从可用走向生产

  据全天候科技走访的多家下游应用方情况来看,Seedance 2.0 带来的体感变化更为直接。

  “无论是对视频内容的理解、对物理世界规律的把握,还是表演的自然度,Seedance 2.0 都有大幅度提升。”AI 短剧制作公司可梦智能(北京)科技有限公司的内容负责人刘城对全天候科技表示。

  以视频内容的理解来说,刘城认为 Seedance 2.0 对于抽象语义的理解已经有了较大的进步。

  “虽然最后生成的结果仍有不确定性,但是已经做得不错了。比如提示词是‘让这两个人在场景中产生暧昧的互动’,AI 会分析并生成两个人之间带有暧昧的光影效果和色调,人物的镜头运动可能会变得更加缓慢,相当于它会根据需求自动补充这些元素。”刘城表示。

  不仅如此,他举例称原来一些武打动作、复杂的多人交互场景,常常会出现穿帮、穿模、人脸模型错位等问题,但经过 Seedance 2.0 之后,目前已经基本得到解决。

  “有一些视频其实你根本看不出来是 AI 还是真人。”刘城直言。

  重庆一位短剧从业者亦持相似的观点。

  “Seedance 2.0 出来以后,确实人物、口型和声音的一致性保持比以前好,而且画面的油画感也弱了很多,分镜设计上也变得更聪明。”该从业者向全天候科技表示。

  据西安一位 AI 短剧行业人士向全天候科技透露,在 Seedance 2.0 的加持下,其通过对提示词的优化等,现在能做到一到两次便生成一段 10 秒钟左右的视频,至多三次便能实现满意效果。

  “如果熟练的话,可能一部 50 集的真人 AI 短剧两周左右就能完成了。”该人士透露。

  作为一名正在创业、专注 AI 短剧工具的开发者,星熹(化名)认为字节跳动接入 Seedance2.0 模型的即梦,功能的易用性做的比其他厂商完善。

  据星熹反馈,即梦视频生成的全能参考模式能够较好的理解九宫格分镜图片。即上传一张包含了九个分镜头的关键帧图片后,可以基于分镜图标注的顺序自动推理生成视频。但是现在大家迭代速度都很快,其他工具也有这个功能了。

  至少在当前这一轮 AI 视频竞争中,Seedance 2.0 已经率先把模型能力从“可用”推向“更接近生产级”,也让后来者的追赶压力进一步加大。

  

  痛点主要是什么

  尽管 Seedance 2.0 是断档式的存在,但 AI 视频行业的共性问题仍然存在。

  一是随着生成视频时长的拉长,人物主体难以保持一致性。尤其是当人物从正脸转到侧脸时,人物主体的脸就可能发生变化。

  目前包括 Seedance 2.0 等模型在内的厂商基本解法是控制单个视频生成的时长,基本保持在5-15 秒。

  这导致用户只能一个一个片段的生成视频,再通过后期剪辑将这些片段拼接成完整内容。

  但片段式生成又会带来新的问题:每进入一个新镜头,创作者都需要重新把人物定妆照、服装、场景、道具等信息带入模型,以尽可能维持前后画面的一致性。

  学界也在探讨相应的解法。

  例如北京大学计算机硕士生袁盛海团队所发表的《Identity-Preserving Text-to-Video Generation by Frequency Decomposition》,想要解决的问题便是“在文字生成视频时,如何让同一个人物在不同帧、不同动作、不同角度中保持人物主体的一致性。”

  例如袁盛海在该论文中所提出的技术框架 ConsisID,主要是通过把人脸的特征分成高频和低频两种信号,再分别让模型进行学习,以此降低模型学习的难度。

  “之前大家的做法就是直接把原图丢给特征提取器里去提取特征。我们认为这样其实是会提升模型学习的难度。”袁盛海解释称,“我们后续查阅了一些文献,发现人脸特征实际上可以分为高频和低频两种类型。高频信号对应于人脸的细节,如面部纹理和眼睛等细节相关的特性。而低频信号则与人脸的全局特征相关,包括人脸骨架、眼睛、鼻子等五官的相对位置,这些特征可以被理解为低频的信号。如果我们能够将这两种高低频特性分开,并分别让模型进行学习,其实是会让模型更容易学习这些特征。”

  二是人物与背景的图层割裂

  许多观众都能直观感受到,AI 生成视频中的人物常常“漂浮”在背景之上,仿佛不在同一图层。

  星熹分析,很多画面 ai 味的根源在于光影和层次处理。由于现在不少转型做 AI 视频的创作者大多没有经过影视美学训练,不懂得主动调整光影效果,导致画面缺乏层次。

  “可能部分从业者对光的角度、阴影、焦点、景深的处理不够协调,导致画面给人扁平感或者割裂感。所以很多画面看起来觉得是两个图层强行拼凑在一起。”星熹指出,“去掉画面 AI 味在很大程度上取决于制作人员的影视摄影基础,最简单来说就是美学理解和镜头中的关系呈现。”

  也有 AI 视频研究人员告诉全天候科技,这本质上是模型端的多模态参考融合问题,人物参考图和场景图各有各的色调、各有各的光感,二者融不到一起。

  三是长叙事下的镜头逻辑与情感张力。

  星熹认为,即便是大厂自研剧本生成和剧本拆分工具,在剧本层面仍存在“平铺直叙”和“剧情生硬老套”的问题。

  “针对特定类型和风格的泛化能力不够,没有波澜和起伏。”星熹指出,“虽然会在大的剧情里设置反派,但在小情节里无法引起情绪共鸣,缺乏小冲突和逻辑严谨性。”

  刘城也认为:“Seedance 2.0 的升级虽然降低了 AI 内容的制作门槛,但这种情况下 AI 内容会泛滥,参差不齐,好的作品还是需要内容力的,才能真正打动观众。”

  

  差异化补位

  如此背景下,大厂之外的玩家开始在工作流案例库等方面作出差异化优势。

  据刘城透露,在项目生成过程中,可梦采用了 AI 辅助功能。例如,团队开发了分镜提示词和草图功能,用户修改提示词后,AI 可以完成 80% 至 90% 的创作。对于灵活运用 AI 提示词的用户还可以通过进一步微调提示词来提升效率。

  群核科技则把工作流优化做到了 3D 层面,其在 5 月 27 日推出了短剧版的 LuxReal。

  基于群核科技自研空间大模型等 3D 技术 ,LuxReal 能够将 2D 画面场景生成为可漫游的虚拟 3D 空间。创作者可以自由调整机位、设置人物站位,系统基于同一个 3D 场景自动渲染对应画面。

  不过实际生成质量仍待观察。例如虽然 LuxReal 为短剧工作流的设置较为完善,但主动思考的优化程度仍待提升,存在人物衣着与时间背景不符合等问题。

  爱奇艺的纳豆接入了自研和 Seedance 2.0 等外部模型,结合爱奇艺 IP 库、数字资产库和创作者社区,形成可调用的平台能力,为创作者一站式提供从内容生产到运营等全链路支持。

  在这当中,IP 库、数字资产库是爱奇艺的独特优势。例如在数字资产库中,创作者可以调用电视剧《成何体统》中的皇宫、《花戎》的魔界大全等多部电视剧中的场景、武器、动物等 IP 形象。

  不过据全天候科技观察,爱奇艺虽然自身拥有丰富的 IP 库和数字资产库,但是目前在纳豆平台中所呈现的数量仍相对有限。

  总体来看,大厂之外的玩家在引入 Seedance 2.0 之后,主要在工程化、知识沉淀、流程协同等维度构建自己的差异化优势。

  

  战火不休

  无论是长视频稳定性、人物一致性,还是可控性等,现阶段的 AI 视频行业确实还存在诸多需要被解决的痛点,竞争格局远未到收敛阶段。

  在这样的背景下,资本化也成为部分厂商加足马力的重要选择。

  今年 5 月,市场传出快手正在加速推进可灵的分拆上市,计划明年启动独立 IPO,Pre-IPO 轮估值预计达 200 亿美元。

  随后,快手在港交所公告中确认,公司董事会正评估重组可灵相关资产及业务的方案。

  无独有偶,垂直玩家也在加快融资和上市准备。生数科技在两个月内连续完成两轮共计逾 26 亿元融资后,亦被传计划于 2026 年上半年启动港股 IPO,其工商主体已于 3 月底完成股份制改造。

  密集的资本动作,意味着这条赛道的竞争烈度只会进一步抬升,而非收敛。

  这些资本动作背后,折射出 AI 视频赛道的另一重现实:模型竞争并不只是一场技术竞赛,也是一场资金、算力、数据和场景落地能力的综合竞争。

  与此同时,AI 视频的商业化仍处在早期阶段。短剧、广告、电商、游戏、影视预演等场景虽然已经开始验证需求,但距离形成稳定、规模化、高毛利的收入模型仍需要时间。

  也正因如此,资本市场的资金支持某种程度上成为不少厂商继续留在牌桌的重要筹码。

  当前 AI 视频赛道的竞争并没有因为 Seedance 2.0 的阶段性领先而结束。相反,随着更多厂商补充资金、加速产品迭代,行业有可能会继续经历一轮模型能力、生产工具和商业化效率的竞速。

  *本文为全天候科技原创作品,未经授权不得转载,如需转载,请在后台回复“转载”二字,获取转载格式要求。