国思软件 - Sora来了，即梦可灵松了一口气

　　文定焦 One（dingjiaoone），作者王璐，编辑魏佳

　　全网苦等 10 个月的 Sora，终于亮相。

　　北京时间 12 月 10 日凌晨，OpenAI 直播第三弹，宣布旗下视频生成模型 Sora 正式面向大众推出。

　　自今年 2 月首次预告以来，Sora 仅向一些艺术家、知名演员和导演提供试用服务，但迟迟未上线，吊足大众胃口。此次一经发布，立即激发起全球网友的热情，挤爆服务器。

　　「定焦 One」注意到，与上一个版本相比，此次的 Sora Turbo 支持生成 1080p 分辨率、最长 20 秒的视频，在时长上有明显突破。更大的亮点在于它提供“编辑”服务，除了单纯的文生视频、图生视频、视频生视频，用户还可以通过指令实现视频重混、重新剪辑、循环、混合等功能，更像是一个加强版的视频编辑器。

　　Sora 正式发布后，一个问题也被摆上台前：国内的 Sora 们，准备好迎接挑战了吗？

　　「定焦 One」第一时间进行了实测对比，至于结果，远没有想象中那么糟。

　　新版 Sora，不止文生视频

　　综合多位业内人士的观点，Sora 的变化主要集中在两方面。

　　一是时长，Sora Turbo 支持用文字、图片或视频单次生成最长 20 秒的视频（此前发布的演示视频最长为 60 秒，但不是公开使用版本），有宽屏、竖屏、方屏比例可选。而国内 AI 视频生成软件单次大多仅支持5-10 秒。

　　能生成的视频时间越长，意味着对其内容一致性、避免重复、衔接过渡上要求更高，模型的优化和训练数据的质量在其中起着关键作用。

　　二是它强大的“编辑”功能，包括 Remix（重混）、Re-cut（重新剪辑）、Storyboard（故事板）、Loop（循环）、Blend（混合）以及 Style presets（风格预设）。

　　此前，AI 生成视频的一大痛点在于一次性生成以后很难再调整，这次 Sora 一定程度上解决了这个问题。

　　我们拿其中三个亮眼的新功能来详细说明。

　　Remix（重混）可以替换、移除或重新生成视频中的某个要素，例如，在生成“推开图书馆的大门”后（上图），可以轻易将大门换成法式风格（下图）。

　　Storyboard（故事板）功能绝对是视频创作者的辅助利器，可以精准指定每一帧的内容，控制每个时间段的画面。

　　比如，让视频的前 114 帧生成“红色的背景下，远处停靠着一艘宇宙飞船”。

　　接着，将 114-324 帧的场景变为，“从宇宙飞船内部向外看，一位宇航员站在中间”。

　　最后在 324-440 帧，将画面聚焦到宇航员眼睛的特写镜头，他的眼睛被针织面料制成的面罩包裹住。

　　Blend（混合）功能可以把两个视频混合在一起，Sora 演示了将雪花飘落和花朵飘落的视频混合在一起，过渡非常自然。OpenAI 方面称，这是其它 AI 视频从未见过的功能。

　　需要注意的是，这些功能虽然惊艳，但 Sora 目前仅在部分国家提供服务，英国、中国大陆等地暂不能使用。

　　在收费方面，Sora 对 ChatGPT 的 Plus 会员（每月 20 美元）和 Pro 会员（每月 200 美元）直接开放使用，Plus 会员每月可生成 50 个 480P 分辨率的视频，Pro 会员则拥有不限次慢速生成的额度。

　　Sora 来了，可灵、即梦们先别慌

　　从 Sora 亮相到发布的这 10 个月里，国内的 Sora 们一直在抓紧追赶。此次 Sora 正式发布后，「定焦 One」挑选了国内外几家比较有代表性的 AI 生成视频工具，进行实测对比。

　　先看各大工具在生成秒数、收费价格上的情况。

　　单次生成秒数上，Sora 凭借 20 秒领先，紧随其后的是 Runway，可以达到 10 秒，相比之下，国内的产品普遍都在5-6 秒。

　　需要说明的是，白日梦虽然最长可达 6 分钟，但非单次文生视频长度，它根据文字提示先生成人物，然后再生成分镜、编辑图片，最后连成一段视频，所以支持的时间较长。

　　在收费上，国内的产品都可以不付费体验，有些会限制使用次数。Sora 则必须付费才可以使用，且门槛不低，20 美元起步，Runway 其次，最低月付费 15 美元。

　　再看各家提供的具体功能及对应效果。

　　综合从业者的说法以及 Sora 最新发布的功能，我们从两个维度进行测试。

　　1、基础功能：主要测试文生视频的能力，考察产品对文字指令的理解度、运动过程中人物面部的清晰度和多人物的准确度。为了覆盖以上三个难点，「定焦 One」给出了两条提示词：

　　第一条：镜头中景拍摄，夕阳下，两个长头发的女生，一个穿着黄裙子，一个穿着蓝裙子，手里都拿着胡萝卜，旁边还有三只小兔子，小兔子慢慢跑过去吃胡萝卜，电影级调色。

　　这条主要测试多主体数量的准确度，让人大跌眼镜的是，Sora 没能识别出主体数量，只生成了两只兔子（测试时已将提示词转换为英文），不过，其他的地方都是比较准确的。

Sora 提示词

　　同样踩坑的还有通义万相，不仅弄丢了一只兔子，还增加了一个女孩。

　　其他产品表现较好，均能准确理解提示词，只是在画风上有所差异。

　　第二条：镜头特写拍摄，灯光，一个有着一头黑色卷发的中式少女，穿着一条白裙子，胸前手握一束粉色鲜花，眼睛先低头看鲜花，然后慢慢抬起头来微笑，电影级调色。

　　这条主要测试各工具对于人物面部的特写，以及对复杂指令的理解程度。

　　从生成效果来看，几家都理解了特写拍摄、少女、裙子、粉色鲜花、低头看花、微笑等人、物和动作，但问题出在指令解读上，比如可灵没有读懂“一个有着一头黑色卷发的中式少女”，随后我们换成“一个中式少女、黑色长卷发”才成功生成。

可灵提示词

　　各家对“中式少女”的理解也不尽相同，比如智谱清言生成人物的更像外国女孩，相比之下，在 FilmAction 里选择新中式风格，先文生图，再图生视频的理解最好，但使用起来也复杂一些。

　　「定焦 One」还对比了 AI 工具这半年来的进化速度。以即梦为例，和五个月前相比，人物真实感有明显提高。

即梦之前生成的视频

　　综上，在基础功能上，Sora 的表现还谈不上惊艳。

　　2、进阶功能：主要测试此次 Sora 发布的新功能，也是本次 Sora 宣传的重点。

　　多位从业者提及，Remix（重混）功能实现起来比较复杂，因此我们直接上难度测试了这一项，让 Sora 将此前生成视频中的兔子替换成小狗，结果出现了胡萝卜或者小狗起飞的状况。

　　看来，实际操作远没有样片中丝滑。不过，也有从业者表示，实测中存在一定偶然因素，最终效果和提示词、场景、风格的关系比较大。

　　结语

　　经过一番对比，不难发现，尽管 Sora 的发布让人震撼，但目前其实力还没强到让国内从业者恐慌的程度，大家对 Sora 的整体评价是，效果在预期之内。

　　生数科技投融资负责人樊家睿评价，相比今年 2 月份释放的 demo，Sora 在模型效果方面，真实感上并没有显著变化。另外，结合多位网友实测反馈，Sora 在长时间处理复杂动作时还存在一定困难，模拟物理世界时可能会犯错。

　　至于它发布的一系列新功能，从业者们见仁见智。

　　瀚皓科技 CEO 吴杰茜告诉「定焦 One」，和 Sora 类似的 Storyboard（故事板）、Style presets（风格预设）功能在 FilmAction 中已经实现，Blend（混合）功能最先在国外的 AI 生成视频工具 Luma 中亮相，主要原理是首尾帧生成，Re-cut（重新剪辑）功能底层依靠的是视频续写，目前国内工具也已经具备。

　　不过，AI 行业资深研究者江树表示，此次 Sora 发布的一些功能属于独家，国内的产品基本没有。尽管从技术上来说并不新鲜，比如可灵的运动笔刷、首尾帧功能也能做到视频衔接和循环，但他觉得，Sora 的实现方式比较高明。

　　他以 Remix 举例，用户想改变视频中的主体，国内基本是通过“替换关键帧”实现，但 Sora 的 Remix 不是，因为在直播演示中，猛犸象在变成机器人时，沙子扬起的细节都能与主体保持一致。

　　“或许 Sora 目前透露出的最大优势是处理细节的连贯性。”江树表示，他举例，在直播演示中，机器人在沙漠中漫步，这一画面从远景到特写，中间的转换十分自然。Sora 的空间感也不错，摄像机绕着一个物体进行 360 度旋转，每个角度下的细节都非常准确，这说明 Sora 对三维场景有较为完整的理解。

　　另一个加分项是产品体验。江树表示，Sora 这次发布的是一个从视频生成到制作成品的端到端的完整产品，不像之前 ChatGPT 发布时只有一个对话框。

　　“Sora 在基础的文生视频、图生视频以外，提供了一些提升视频创作体验的功能，说明 OpenAI 确实更关注产品体验了，”樊家睿觉得，Sora 新功能的实现路径非常明确，对于他们而言，背后不是技术实现难度问题，主要是时间问题。

　　接下来，AI 生成视频赛道又要卷起来了。

Sora来了，即梦可灵松了一口气

我们的产品

相关链接

关于我们

联系我们