抖音、优酷的“Sora”在哪里?

  OpenAI 又一次震撼了科技圈。

  当地时间 2 月 15 日,OpenAI 推出旗下首款视频生成模型 Sora。官方介绍写道:“我们打造了一种名为 Sora 的文本到视频模型。Sora 能够生成长达一分钟的视频,同时保持视觉质量和对用户提示的遵循。”

  Sora 是日语“天空”的罗马音字母,在英语里则有小鸟在空中咏唱的意思。它像是 OpenAI 此前推出的图像生产系统 DALL·E与 AI 聊天机器人 ChatGPT 的混合升级视频版本。

  过去一年,生成式 AI 视频创业已是一条热门创业赛道,涌现出了一批备受瞩目的独角兽,也给出了不少有创意的作品。但外界普遍仍抱有 AI 生成视频和实拍差距明显,全面推广商用并不会在短期内实现的想法,然而 Sora 的演示样片彻底颠覆了大众的认知。

  通过 OpenAI 给出的案例演示来看,用户只需要输入简短的文字描述,Sora 就可以将文本内容转化为一分钟的高清视频。

  年轻的东亚女性走在充满霓虹灯的东京街头、两艘战船在咖啡杯里斡旋、黑人小伙在云端听歌、古镇巷子里迎接龙灯的男女老少……画面不仅包含高度详细的场景、神态动作机器逼真的人物形象,更是呈现出如同电影效果的摄影机运动曲线和同一场景多景别取景。

  不仅如此,Sora 还可以根据静态图像制作动画,立体平面多种风格都可以实现,说是动画工作室出品的最新短片也不为过。

  如果不仔细观察,视频画面基本没有 AI 制作的违和感,甚至可以抵得上好莱坞娴熟的现场实拍和庞大的后期团队合在一起数月的工作量。

  Sora 的进化速度,连《流浪地球》的导演郭帆都发朋友圈感慨,“太快了”,并配上了“哭泣”的表情。

  不止大佬郭帆,整个影视行业都在密切关注 Sora。“Sora 大幅提高了影视工业的生产力。”资深影视从业者老邱对《最话》说,“人人都可以成为导演的时代快来了。”

  01视频行业的 iPhone 时刻?

  从样片来看,Sora 呈现的效果远超 Pika、Runway。之前的文生视频模型基本上是生成单镜头,一旦输入新的提示语,画面主体会出现明显变化。Sora 生成的视频在视角转换、镜头景别切换后,可以保持主体的一致性,这让一个人足不出户制作独立完整的视频作品变为可能。

  Sora 正式上线后,专业短视频制作成本或将大幅度降低。

  “用 AI 工具开发一个小说 IP,前期开发的文字和图片成本可能是以前的十分之一,做一条 30 秒预告片 demo 的成本,成本可能是以前的二十分之一。”老邱认为,“有好多故事和题材,一个人用 Sora 就能做一条片子。”

  但 Sora 的高效率会不会冲击到影视行业从业者的饭碗?

  以短视频团队为例,短视频平台上 1 秒种长度的专业内容基本就对应着 1 个小时的专业工作量,一个账号基础配置包括出境博主、摄影师、剪辑师的 3 人团队。一个日更 30 秒视频的账号需要小团队每日的高频产出来维持更新频率。

  使用 AI 生成视频后,不仅可以省去实地拍摄的所有成本,摄影师和剪辑师可有可无,甚至连博主都不需要了。只需一个人阐述文本内容就能运作多个账号,且每个账号的主角还能不一样。

  据美媒报道,好莱坞正在担心 AI 将导致舞美、后期、特效等岗位出现大面积失业。有统计称,美国的创意行业未来三年将有近 20.4 万个岗位受到 AI 的冲击。

  去年 5 月 2 日,美国编剧工会(WGA)宣布罢工。7 月 13 日,代表 16 万演艺人员的美国演员工会及广播电视艺人联合工会(SAG-AFTRA)也宣布与制片公司的谈判破裂,从即日起进行罢工。两次大罢工,原因除了演员、编剧与资方的薪资矛盾外,人工智能可能取代演员和编剧的威胁成为主要原因。

  据中国侨网消息,参与谈判的人表示,通货膨胀和流媒体生态系统、福利以及不受监管地使用人工智能的威胁削弱了他们的基本工资。

  但也有业内人士对此抱有不一样的态度。乐观主义者将 Sora 视作是“视频行业的 iPhone 时刻”,将它视作辅助创意执行的工具。“Sora 的魅力在于能够培养创造力。导演可以尝试不同的美学或场景,而无需承担与传统制作相关的财务风险,为以前仅限于想象力的叙事和视觉风格打开了大门。”

  老邱也是类似的观点,“AI 将大幅提升影视作品的产量,更多元的品类和商业玩法,从而抵消专业从业者被 AI 替岗的冲击。

  AI 生成工具需要大量内容进行训练,而这些内容都是此前创意行业从业者辛勤工作得出的成果,所以有创意工作者在质疑大模型训练是否侵权,AI 生成的内容是否可以商用,甚至一些编剧拒绝将其作品用于 AI 训练和创作素材。

  客观来说,版权保护、就业岗位与生成式 AI 发展存在相互制约的。目前,各国司法机构都没有给出明确的界定,短期内相关方还会处于博弈状态。

  而相比起国外创意工作者担忧版权被侵权,国内从业者则看淡许多。目前,影视行业在研究如何引导 AI 制作电影短片。老邱认为,“在摸索如何用好 AI 工具方面,中国影视人非常卷,国外的影视人远远没有中国同行疯狂。”

  02“中国版的 Sora”在哪?

  受 Sora 影响的不止影视、创意、广告等行业。“Sora 生成的视频质量之高,会让现有视频生成公司立即感受到威胁。”

  Sora 发布后,此前宣布全面拥抱 AI 的图片软件公司 Adobe 股价应声下跌7%,哪怕其去年推出的主打文生图的 FireflyImage2、矢量图模型 FireflyVectorModel 以及设计模版生成模型 FireflyDesignModel 已经令人惊艳。

  让人惊讶的是,Sora 背后团队的核心成员仅有 13 人, 2 位负责人也不过刚博士毕业。Tim Brooks 是 DALL-E 3 作者之一,在英伟达实习时负责过视频生成研究项目;William Peebles 则与 CV 行业大神级人物谢赛宁合作发表了 DiT 模型,首次将 Transformer 与扩散模型结合到了一起。

  从时间线来看,Sora 并非是酝酿多年的项目,就是这支年轻的团队在一年内搞出来的成果。Tim Brooks 称:“我们认为建立能够理解视频的模型,并理解我们世界中所有这些非常复杂的交互,对于人工智能系统而言是非常重要的一步。”

  Sora 一出,OpenAI 在生成式 AI 领域的领军地位再次得到了巩固,市场立刻给出了积极反馈。早已和奥尔特曼分道扬镳的马斯克在个人账号发出了“gg humans(人类服输)”的感叹。

  从 Meta 离职加入纽约大学的谢赛宁盛赞 Sora 将改变行业,并在社交账号拆解起 OpenAI 构建大模型的逻辑。他分析称,Sora 应该是建立在带有 Transformer 主干的扩散模型 DiT 之上的。Sora 可能不需要庞大的 GPU 来训练,目前大约 30 亿个参数,仍有快速迭代空间。

  面对外界的惊叹,OpenAI 一如既往以退为进,用谦虚的言辞炫耀着实力。

  OpenAI 称,Sora 存在难以准确模拟复杂场景的物理特性、无法理解因果关系的具体实例和混淆提示空间细节的缺陷,目前还处在测试阶段。公司将会给视觉艺术家、创意工作者提供访问权限,以便收集专业人士的改进建议,进一步完善模型。

  如果说国内影视圈、创意圈是在研究如何用 Sora 降本增效,自媒体圈是在研究如何以 Sora 为噱头卖课,那么Sora 的惊艳亮相无疑让科技公司重燃激情,文本生成视频赛道成为新战场。

  今年 2 月 7 日,抖音集团 CEO 张楠宣布已辞去集团 CEO 一职,未来将把精力聚焦在剪映的发展上。据媒体报道,过去一年,张楠把绝大多数精力倾斜到剪映相关业务上,并亲自带队寻求在 AI 辅助创作上有所突破,即将推出一个 AI 生图和视频的产品。

  八天后,Sora 的火爆让外界猜测张楠的调岗是否是字节在做更深的布局。近日更是有传言称,字节跳动已经在研发一款名为 Boximator 的创新性视频模型,有人因此认为“中国版的 Sora”即将来了。

  对此,字节跳动相关人士也向《最话》回应称,“Boximator 是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。”

  根据公开信息显示,截至 2021 年,剪映的月活用户已经突破 1 亿,是国内最大的移动视频编辑产品,其已内置了多项 AI 功能。

  而从字节对媒体的回应来看,Boximator 模型仍然处于研发阶段,预计将在2-3 个月内发布测试网站。到时才能获悉其对视频创作的影响,以及是否会与剪映进行融合。

  除了字节的剪映,还有不少互联网公司都推出了自家剪辑工具产品,例如快手推出的快影,B站交出的必剪,但均未公开是否有类 Sora 产品的计划。

  视频制作成本高,而各大影视平台自制剧越来越多,以爱奇艺为例,每年的内容成本就需要上百亿。使用 AI 生成视频技术将极大降低成本,提高特效。据介绍, 爱奇艺已率先开始在内容策划、开发、制作、宣发等核心环节落地生成式 AI 的应用,并在文本、图片、声音、视频四大应用场景形成了一定生产力。

  而另一个视频平台优酷最近上线的《大唐狄公案》是其首部 AI 辅助生成特效画面的剧集。相比传统特效方式,阿里大文娱的 AI 技术,可以用更短时间完成各类虚拟场景的搭建,生成超高精度的特效画面。据《最话》了解,优酷目前正在研究 Open AI 的产品,而此前火爆一时的 AI 生成写真应用“妙鸭相机”就是优酷内部创业项目。

  除了视频平台,还有不少 AI 企业正密切关注着 Sora,今年或推出类似的应用。“Sora 给中国科技公司们趟出了条路,指出了方向。”一位科技企业技术人员对《最话》说,“当然,我们的人才、算法比人家还是差得远。”

  03进击的巨头

  接连不断的颠覆性产品让 OpenAI 的影响力与日俱增。尽管还保持着独特的股权结构,但 OpenAI 确实越来越商业化了。据报道,OpenAI 与风险投资公司 Thrive capital 达成最新股票出售协议,公司估值突破 800 亿美元,是仅次于字节跳动和 SpaceX 的第三大独角兽。

  有起就必然有落。

  一夜之间,Sora 成为行业投资人议论的焦点。OpenAI 的每一次突破都会让资本对它的想象空间进一步扩大,同行竞争者能够拿到的资源也会变少。

  不少小型初创公司创始人在看到 Sora 呈现的效果不得不思考新的发展方向。有分析人士甚至悲观地表示,ChatGPT 终结了 AI 文本生成创业,Sora 要终结 AI 视频生成创业了。

  前阿里技术副总裁,正在进行 AI 创业的贾扬清认为:“从算法小厂的角度,要不就算法上媲美 OpenAI,要不就垂直领域深耕应用,要不就选择开源。

  OpenAI 的遥遥领先使得其越发向着垄断巨头的趋势进化,让诸多 AI 领域的创业公司如坐针毡。

  除了 AI 创业者,作为大模型的根基,芯片制造领域和 OpenAI 的关系也在变得微妙。

  ChatGPT 爆火后,从绝对数值来看,英伟达显然是比 OpenAI 更大的受益者。2 月,英伟达市值飙升至 1.8 万亿美元,赶超谷歌、亚马逊,成为美股第三大上市公司。

  如果能拥有算力芯片的研发、制造和生产能力,OpenAI 就可以串联起整个产业链,奥尔特曼越发想介入上游。

  2 月,OpenAI 创始人奥尔特曼被爆在跟中东投资人兜售旨在提高全球芯片制造能力的大项目。知情人士透露,奥尔特曼认为现有的 AI 芯片供应量跟不上 AI 的高速发展,芯片会成为实现通用人工智能障碍,他希望筹集 5 至 7 万亿美元来建立新的 AI 芯片企业。

  奥尔特曼的表述显然言过其实。根据市场调研机构 IC Insights 报告,2023 年全球整体芯片市场的收入预计提高 24%,史上首次突破 5000 亿美元。按现在的增长速度,2030 年芯片业收入才有望突破 1 万亿美元。

  “如果你只是假设计算机不会变得更快,你可能会得出这样的结论:我们需要 14 个行星、三个星系和四个太阳来为这一切提供燃料,但计算机架构仍在不断进步。”

  同为舆论焦点人物,英伟达首席执行官黄仁勋虽然认为各国都需要建设独立的 AI 基础设施,但是并不认可奥尔特曼的夸张性表达。他认为,芯片业的扩张并不意味着数量爆发,而是要提升 AI 计算的效率,过去十年算力成本已经下降了 100 万倍。一味地扩大产能将导致供需失衡,冲击芯片的价值。

  OpenAI 展现出的实力越大,外界对它的担忧和争议也会越多。自 ChatGPT 爆火,舆论对 AI 的边界应该设在哪里的争议就没有停下来。从文字到图片、从图片到视频……AI 以假乱真变得越来越难以识别。按照现在的进度,AI 生成从二维进入三维世界大概率只是时间上的早晚问题。

  新的一片天空已然拉开大幕,AI 行业思考如何在激烈的市场竞争中占据一席之地固然重要,但更重要的是得处理好人类和 AI 的伦理规范。

  AI 可以生成虚幻的数字影像世界,但监管它的规则,还是由人类来制定的。