会做视频的AI模型Gen-2发布：一句话，一张图，三秒视频无中生有

　　新智元报道

　　编辑：Aeneas 好困

　　Runway 的 Gen-1 还没内测完，Gen-2 就以迅雷不及掩耳之势发布了。这次的效果更加炸裂，AI 大导离淘汰人类，又近了一步。

　　昨天，Midjourney 生成的完美情侣刷爆网络，大家纷纷在留言区里畅想，下一步，就是演员被淘汰，人人都能升级大导，一键生成大电影了。

　　巧得很，今天，会做视频的 AI 模型不就来了嘛。

　　刚刚，仿佛一声惊雷炸响，Runway 发布了文字生成视频模型 Gen-2。

　　宣传词也是非常炸裂——「say it，see it」，只要你说得出来，它就能给你做出来。科幻小说里的超能力成真了！

　　可以说，有了 Runway Gen-2，你就能用任意的图像、视频或文本，生成一段酷炫大片，想要啥风格，就有啥风格。

　　这个速度简直让人目瞪口呆：Gen-1 的内测都还没拿到呢，Gen-2 就来了！

　　一句话，一张图，三秒视频无中生有

　　此前，Runway 在文本到图像领域就曾经大放异彩，大名鼎鼎的 Stable Diffusion，就是 Runway 开发的。

　　在今年 2 月，Runway 就提出了首个 AI 编辑模型 Gen-1。

　　顾名思义，Gen-1 可以在原视频的基础上，编辑出咱们想要的视频。无论是粗糙的 3D 动画，还是用手机拍出来的摇摇晃晃的视频，Gen-1 都可以升级出一个不可思议的效果。

　　论文地址：https://arxiv.org/abs/2302.03011

　　比如用几个包装盒，Gen-1 就可以生成一个工厂的视频，化腐朽为神奇，就是这么简单。

　　而相比 Gen-1，Gen-2 获得了史诗级的升级——可以从头开始生成视频。

　　目前，这个模型还未开放，预计在几周内会公开。

　　而根据目前的演示片段看来，Gen-2 的效果似乎暂时比不上 Gen-1，没有那么逼真。

　　但是，这毕竟是 AI 文生视频 0 到 1 的第一步。AI 导演做到这一步，已经够人类颤抖的了。

　　网友实测，效果炸裂

　　而获得内测资格的幸运网友，已经开始动手生成自己的电影了。

　　可以看出，无论是宫崎骏风格的日系动画，还是写实风格的镜头特写，或者魔幻特效的电影大片，Gen-2 都不在话下。

　　虽然目前的画质可能还不够细腻，但毕竟是从 0 生成的视频，一旦日后优化好，大导们的饭碗怕是捧不稳了。

　　Gen-2 的八大「魔法」

　　Mode 01：Text to Video（文字生成视频）

　　一个文本提示，就能合成出任意风格的视频，不怕它生不出来，只怕你想不到。

　　提示：

　　在纽约市的一间阁楼里，傍晚的阳光透过窗户温柔地洒进屋内。

　　输出：

　　Mode 02：Text + Image to Video（文字+图像生成视频）

　　输入一幅图，再加一句 prompt，直接就给你变成了视频。

　　输入图像：

　　驱动提示：

　　在一个低角度拍摄的画面中，男子正沿着街道行走，周围酒吧的霓虹灯照亮了他的身影。

　　输出：

　　Mode 03：Image to Video（图像生成视频）

　　这个不用解释了，你给它一张图片，它给你秒变一段视频。多种风格，随你选择。

　　美图一秒变电影，这也太梦幻了吧。

　　输入图像：

　　输出：

　　Mode 04：Stylization（风格化）

　　如果你有一段原视频，但是效果不够炸裂，怎么办？

　　只需要把你想要叠加的风格用图片或者文字叠加上去，多魔幻的风格都立马生成，秒变好莱坞大片。

　　原始视频：

　　驱动图像：

　　输出：

　　Mode 05：Storyboard（故事版）

　　将模拟的场景一拉，就变成了风格化和动画化的渲染图，前期制作一键简化。

　　输出&输出对比：

　　Mode 06：Mask（掩码）

　　在你的视频中分离出特定的对象，然后通过 prompt，想怎么改就怎么改，比如下图中，金毛秒变斑点狗。

　　输入视频：

　　驱动提示：

　　一只身上有黑色斑点的白毛狗。

　　输出：

　　Mode 07：Render（渲染）

　　只要输入图像或提示，无纹理的渲染立马变成现实的输出，深度和真实感震撼人心。

　　输入视频：

　　输出：

　　Mode 08：Customization（个性化）

　　通过自定义，让原视频个性化大变身，保真度还超高。

　　点击就看外国小哥秒变海龟人。

　　输入&输出对比：

　　训练图像：

　　从生成结果来看，Gen-2 的前景，实在是太令人着迷了。（Gen-1 的内测申请在这里，http://t.cn/A6Cu1cdy）。

　　虽然 Meta 和谷歌也有类似的文本到视频模型（Make-a-Video 和 Phenaki），生成的剪辑更长、更连贯。

　　但这些体量更大的公司并没有投入多大的资源，相比之下，Runway 的团队只有区区 45 人。

　　其实，Runway 自 2018 年以来，就一直专注于研究 AI 工具，并在去年年底筹集了 5000 万美元。

　　有趣的是，Stable Diffusion 的初始版本，就有 Runway 的贡献。只不过后来被 Stability AI 普及，并有了更进一步的发展。

　　而这也告诉我们，初创公司在生成式 AI 上的潜力，是多么惊人。

　　一大波展示

　　提示：一只眼睛的特写镜头

　　提示：无人机拍摄的沙漠景观

　　参考资料：

　　https://research.runwayml.com/gen2

　　https://www.theverge.com/2023/3/20/23648113/text-to-video-generative-ai-runway-ml-gen-2-model-access

作者：itwriter
来源：互联网
日期：2023-03-22
浏览 (5447)