Gen-3开放内测，网友实测demo惊人！魔都时装秀一绝，却依旧不懂物理世界

　　新智元报道

　　编辑：桃子

　　Gen-3 Alpha 终于开启测试了！第一时间拿到内测资格的网友们，纷纷放出各种炸裂的 demo，看得出 Gen-3 在生成质量完全跃升。不过，模型有时无法理解物理世界的缺陷，依然存在。

　　众人翘首以盼的 Gen-3 Alpha，终于向部分超级创意合作者开放了。

　　拿到内测资格的网友，可是爽了一把。

　　比起上一代，Gen-3 Alpha 在细节、一致性和运动表现方面，又有了史诗级改进！

　　还有人表示，Gen-3 让我们看到了一个令人兴奋的未来——用不了多久，我们就能看到完全由 AI 生成的电影了。

　　不过，不可否认的是，Gen-3 Alpha 在理解物理世界上，还是有一定的差距。

　　就拿网友测试 Gen-3 和 Sora 对比的一个 demo 中，越野车在陡峭的山坡中快速行驶，轮胎尘土飞扬。

　　明显可以看出，Gen-3 生成了尘土仅在车前方出现的情景。

　　就连此前的 Sora 也是，生成了只有四条腿的蚂蚁，被网友吵得不可开交。

　　不仅如此，这几天比较火的另一个 AI 视频模型 Dream Machine，硬是把体操运动员高空表演，拍成了恐怖片。

　　所有表演者的四肢，在做空中翻转等技能时，不是分散变形，就是合二为一。

　　另有网友测试 Gen-3 后，发现也是存在同样的问题。

　　下面这位直接站在假象的体操杆上表演。

　　这种时刻，当然少不了 LeCun 的嘲讽，他激动地再次重述，「视频生成模型根本不理解基本的物理，更不用说人体了」。

　　他肯定了 AI 视频模型会随着时间推移，变得越来越好。

　　「不过，真正理解物理的学习系统将不是生成式的。所有的鸟类和哺乳动物，比任何视频生成系统更了解物理学。然而，他们都无法生成详细的视频」。

　　各种演示 demo，网友玩疯

　　开放 2 天后，Gen-3 Alpha 的实测 demo 已经铺屏全网，接下来，让我们一睹为快。

　　看看如今敢叫板 Sora 的 AI 视频模型究竟强在哪？差距又在哪？

　　人物细节精准刻画，表现更有张力

　　水中物理学，Gen-3 做的还是很惊艳的。

　　在人物的刻画，表现张力，不得不说 Gen-3 真的很强。

　　这双弹钢琴的手，是那么地完美。

　　在 Gen-3 笔下，还可以画出灵动的长着兔耳朵的小女孩。

　　作者表示，其实自己的提示中写错了（长着兔毛的女孩），不过 Gen-3 很好地理解她的意图，画出了兔耳朵。

　　AI 生成时装秀，堪比世界四大时装周

　　还有 AI 生成的时装秀表演，完全打破了美学的想象力，可以引领时尚前沿了。

　　精灵、怪兽未来科幻，Gen-3 想象力太强

　　Gen-3 生成的「全息」精灵，看着有些神奇。

　　伦敦泰晤士河中，一只隐藏的怪物从水中逐渐浮现。

　　这一画面，让人不禁想起哥斯拉电影中的场景。

　　另一位网友用 Gen-3 做了一个科幻短片，名为《2030——欧罗巴任务》，还为其配上了音乐。

　　还有太空电梯，看着像那么回事儿。

　　多场景转换，把控到位

　　网友用 Gen-3 生成的一个人一生不同阶段的飞速闪过的经历。

　　从幼年时期，到小学、中学，再到大学，结婚，都呈现出来了。

　　下面这个场景转换，Gen-3 把控得非常到位。

　　从爱尔兰的一座城堡，飞越到一座摩天大楼林立的未来赛博朋克城市。

　　还有这种像素风格的 AI 视频生成，完全是原生的。

　　视频游戏，一键生成

　　黄仁勋曾说过，未来5-10 年内会看到完全由 AI 生成的游戏！

　　不过，Gen-3 生成的 AI 视频游戏，也足以令人惊叹了。

　　网友用 Gen-3 去生成 16 位的复古视频游戏 1776。

　　多样字体

　　另外，Gen-3 Alpha 在标题动画的生成效果上，简直令人惊叹。

　　网友收集了 9 个最经典的案例。

　　海浪拍打沙滩后，留下了 Ruway 的字样。

　　电影院大屏出现了 Ruway 字样，给人一种漫威风格的赶脚。

　　烟花在天空中绽放出 Ruway 字样。

　　还有海洋里气泡、流体、树叶等各种各样的元素，生成的惊艳字体。

　　失败案例

　　除了开篇所给出的 Gen-3 不懂物理世界案例之外，网友也收集了一些其他的失败 case。

　　比如，下面这把刀切肉，切一片变成许多片。网友惊叹道，多么厉害的一把刀。

　　Gen-3、Sora，谁更强？

　　Gen-3 和 Sora 相比，谁更胜一筹？

　　网友 Proper 使用了 9 个相同提示，分别去测试这两个模型。

　　提示一：一名潜水员发现了一艘隐藏的来自未来的沉船，船上有生化海洋生物和先进的外星科技。

　　就生成效果来看，Gen-3 未来科技感更强，Sora 只是着重突出了沉船的外观。

　　提示二：24 岁女子眨眼的超特写镜头，站在马拉喀什的魔幻时刻，电影胶片，70mm 拍摄，景深，色彩鲜艳，电影效果

　　在这个提示下，Gen-3 和 Sora 真实度各有千秋，Gen-3 的瞳孔中貌似更能看出马拉喀什这座魔幻之城。

　　不过，Gen-3 的视频没有眨一下眼，缺少了真实性。

　　提示三：一个外星人与纽约市自然融合，偏执惊悚风格，35 毫米胶片。

　　就外星人形象来说，不得不说 Sora 更好一些，更能让人接受，Gen-3 生成的外星人就像一个恐怖片一样。

　　提示四：一位时尚的女性走在东京的一条街道上，街道上到处是温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色连衣裙和黑色靴子，手提一个黑色手提包。她戴着太阳镜，涂着红色口红。她走路自信而随意。街道潮湿且具有反光效果，形成了彩色灯光的镜面效果。街上有许多行人在走动。

　　还有 Sora 生成的这张经典的图像——打扮时髦的女人走在东京街道，Gen-3 也不输分毫。不过，在表现镜面效果这点上，Gen-3 没有完全遵循指令。

　　提示五：加州淘金热时期的历史镜头。

　　Gen-3 更加真实地体现了加州淘金热，人们沉浸在淘金的喜悦中，而且背景颜色凸显出的历史感更加浓厚。

　　也就是说，没有对比，就没有伤害。

　　提示六：一位年轻的专业产品评论员坐在一台有两个显示屏的电脑前，在一个光线充足的视频工作室里，周围环绕着各种小工具和科技设备。他手持一台电影摄影机，正在思考下一个要制作的视频内容。他对准了焦距、背景略微模糊，以达到电影效果。

　　Gen-3 在人物的表现上，更加丰富。Sora 只是男子的头从一边转到另一边，也没有体现出对焦的这个动作。

　　提示七：摄像机围绕着一大堆老式电视机旋转，这些电视机都在播放不同的节目：1950 年代的科幻电影、恐怖电影、新闻、雪花屏、1970 年代的情景喜剧等，这一场景设置在纽约一个大型博物馆展厅内。

　　旋转这一点 Gen-3 倒是很好地体现，不过电视有点「穿模」的感觉。还有雪花屏幕，Gen-3 漏掉了。

　　但是，对于 Sora，却没有旋转起来。

　　不管咋说，都没有最完美的 AI 视频模型。

　　还有额外一个对比的案例，大家可以自己感受下。

　　参考资料：

　　https://x.com/FinanceYF5/status/1807344173944611157

　　https://x.com/minchoi/status/1807433108456665282

　　https://x.com/ylecun/status/1807556244581822643

　　https://x.com/ProperPrompter/status/1806972255706231221

作者：itwriter
来源：互联网
日期：2024-07-02
浏览 (5005)