国思软件 - 这段视频火爆外网，谷歌把AI视频造假搞得太真太简单了

　　金磊 Pine 发自凹非寺

　　量子位公众号 QbitAI

　　家人们，AI 做视频这事今天又被推向了舆论的风口浪尖。

　　起因是有人在网上发布了这么一只小企鹅的视频：

　　而这个近 50 秒视频的诞生，靠的仅仅是6 句话！

　　陆陆续续的，网友们还在发布着这个 AI 的其它杰作：

　　这次给它投喂的提示词也是极短，仅4 行：

　　如此“所写即所得”、丝滑连贯的视频生成方式，也是令不少网友发出感慨：未来已至。

　　甚至还有人开始“拉仇恨”，说 AI 正在用各种方式摧毁行业……

　　然后就有很多人发问了：“这又是哪家新搞的 AI 哇？”

　　不过眼尖的网友发现它其实是一位“老朋友”了——

　　谷歌去年 10 月份便发布的一个文本转视频（Text-to-Video）模型：Phenaki。

　　只需一段提示词，分分钟可以生成长达两分钟的视频。

　　而相比 Phenaki 刚发布的时候，谷歌又来了一波上新操作。

　　那么我们现在就来一同看看这些新视频吧~

　　打字就能生成的视频

　　与以往 AI 生成的视频不同，Phenaki 最大的特点便是有故事、有长度。

　　例如，我们再给这么一段场景描述：

在一座未来感十足的城市里，交通纷繁复杂，这时，一艘外星飞船抵达了城市。
随着镜头的拉近，画面进入到了飞船内部；而后镜头沿着船内长廊继续向前推进，直到看到一名宇航员在蓝色的房间里敲键盘打字。
镜头逐渐移向宇航员的左侧，身后出现蓝色海洋，鱼儿们在水里徜徉；画面快速放大聚焦到一条鱼的身上。
随后镜头快速从海里浮出，直到看到摩天大楼高耸林立的未来城市；镜头再快速拉近到一撞大楼的办公室。
这时，一只狮子突然跳到办公桌上并开始奔跑；镜头先聚焦到狮子的脸上，等再次拉远时，这只狮子已经幻化成西装革履的“兽人”。
最后，镜头从办公室拉出，落日余晖下鸟瞰这座城市。

　　想必不少友友们在读这段文字过程中，脑中已经浮现相应的画面了。

　　接下来，我们一起看看 Phenaki 生成的效果如何：

　　是不是和你脑补出来的画面一致呢？

　　总体来说，这个 AI 即便面对这种脑洞大开的场景提示词，也是做到了无缝衔接的转场。

　　也难怪网友们看完这段视频后惊呼“（科技）发展得真快啊”。

　　而对于篇幅稍短的提示词，Phenaki 就更不在话下了。

　　例如，给 Phenaki 投喂这样一段文字：

一只逼真的泰迪熊正在潜水；随后它慢慢浮出水面；走上沙滩；这时镜头拉远，泰迪熊行走在海滩边篝火旁。

　　没看够？那再来一段，这次换个主角：

在火星上，宇航员走过一个水坑，水里倒映着他的侧影；他在水旁起舞；然后宇航员开始遛狗；最后他和小狗一起看火星上看烟花。

　　而在谷歌更早发布 Phenaki 之际，还展示了向 Phenaki 输入一个初始帧以及一个提示词，便可以生成一段视频的能力。

　　例如给定这样一张静态图：

　　然后再给它 Phenaki 简单“投喂”一句：白猫用猫爪触摸摄像机。效果就出来了：

　　还是基于这张图，把提示词改成“一只白猫打哈欠”，效果就成这样了：

　　当然，任意切换视频整体风格也是可以 hold 得住的：

　　网友：视频行业要被 AI 冲击了吗？

　　但除了 Phenaki 之外，谷歌当时还一道发布过 Imagen Video，能够生成 1280*768 分辨率、每秒 24 帧的高清视频片段。

　　它基于图像生成 SOTA 模型 Imagen，展示出了三种特别的能力：

能理解并生成不同艺术风格的作品，水彩、像素甚至梵高风格
能理解物体的 3D 结构
继承了 Imagen 准确描绘文字的能力

　　更早的，Meta 也发布了 Make-A-Video，不仅能够通过文字转换视频，还能根据图像生成视频，比如：

将静态图像转成视频
插帧：根据前后两张图片生成一段视频
根据原视频生成新视频

　　对于这如“雨后春笋”突然冒出的生成视频模型，不免会让有些人担心：

　　当然也有人认为现在时机还未到：

0-1 总会很快，1-100 还是会很漫长。

　　不过已经有网友在期待靠 AI 拿奥斯卡奖了：

AI 要多久才能成为新的视频编辑器，或者拿下奥斯卡？

　　原理介绍

　　再说回 Phenaki，有不少网友都比较好奇它是如何通过文字生成这么丝滑的视频的？

　　简单来说，Phenaki 相较于以往的生成视频模型，它更注重时间长度任意性和连贯性。

　　Phenaki 之所以能够生成任意时间长度的视频，很大程度上要归功于新的编码器-解码器架构：C-ViViT。

　　它是 ViViT 的一个因果变体，能够将视频压缩为离散嵌入。

　　要知道，以往获取视频压缩，要么就是编码器不能及时压缩视频，导致最终生成的视频过短，例如 VQ-GAN，要么就是编码器只支持固定视频长度，最终生成视频的长度不能任意调节，例如 VideoVQVAE。

　　但C-ViViT 就不一样了，它可谓是兼顾了上面两种架构的优点，能够在时间和空间维度上压缩视频，并且在时间上保持自回归的同时，还可以自回归生成任意长度的视频。

　　C-ViViT 可以使模型生成任意长度的视频，那最终视频的逻辑性又是怎么保证的呢？

　　这就得靠 Phenaki 另外一个比较重要的部分：双向 Transformer。

　　在这其中，为节省时间，采样步骤是固定的，并且在处理文本提示的过程中，能同时预测不同的视频 token。

　　这样一来，结合前面提到的，C-ViViT 能够在时间和空间维度上压缩视频，压缩出来的 token 是具有时间逻辑性的。

　　也就是说，在这些 token 上经过掩码训练的 Transformer 也具备时间逻辑性，最终生成的视频在连贯性自然也就有了保证。

　　如果还想了解更多关于 Phenaki 的东西，可以戳这里查看。

　　Phenaki：

　　https://phenaki.github.io

　　参考链接：

　　[1] https://phenaki.video/

　　[2] https://phenaki.research.google/

　　[3] https://twitter.com/AiBreakfast/status/1614647018554822658

　　[4] https://twitter.com/EvanKirstel/status/1614676882758275072

这段视频火爆外网，谷歌把AI视频造假搞得太真太简单了

我们的产品

相关链接

关于我们

联系我们