新智元报道
编辑:英智犀牛
Veo 3 实测来袭:从会说话的松饼到电影质感的短片,一句提示词就能打造电影质感短片,还能音画同步,好莱坞真的要慌了?DeepMind 首席技术官更在访谈中透露,Deep Think 模式像多线程大脑般并行推理,而 AGI 的竞赛早已超越单纯「堆算力」。
外星人驾驶飞碟给你送披萨,月球撞上地球——这不是科幻电影作品,而是来自于谷歌刚刚推出的视频生成模型 Veo 3。
只用一句提示词就拍出电影质感的短片。
不仅如此,Veo 3 还能通过文本实现原生的音画同步生成。
上几个实例先。
视频的场景设定在一个复古的餐厅,当氤氲的烟雾在餐桌上翻腾时,女郎的唇形却配着清晰立体的对白。
画面中,一个穿着黑色晚礼服的女人和一个穿西装的男人坐在一张小圆餐桌上。桌面点着一盏小灯,旁边还有一杯威士忌和一个托盘,像是老电影里的场景。
网友表示,这简直太疯狂了,霸主正在出现。
牛顿穿着 18 世纪风格的衣服,戴着白色假发,穿着白色衬衫和黑马甲,手里拿着一本金色的苹果和一本书,在灯光昏暗的书房里。
视频里年轻的牛顿爵士表情夸张,嘴里在念叨着引力拉扯物体,动作幅度很大。
有人调侃「好莱坞要瑟瑟发抖了」,因为 AI 的生成能力太强大了。
这段松饼对话,令人印象深刻。大个的松饼说了一句「我不敢相信 Veo 3 现在居然能对话了!」
旁边的小松饼听到后,吓得大叫:「啊啊啊!一个会说话的松饼!」这场景太搞笑了,简直像动画里的情节。
Veo 3 不仅能生成视频,添加对话、音效和背景噪音,文本指令的遵循度也更高了。
视频虽然只有 8 秒,但是画面质量很不错,松饼的表情和动作都做的特别生动,尤其是那个大叫的小松饼,听起来还挺渗人的。
@Aaron Pitters 表示,「高质量的动画电影将以光速制作。这将节省大量时间,简直难以置信。」
@MartinNebelong 分享了一段用 Veo 3 制作的长视频。
视频开头,老爷爷在一个书房里,周围堆满了书。他看起来特别兴奋,挥舞着双手。
不只是可以对话这么简单,甚至连 Rap 都可以!
画面切换,一个穿着紧身衣的女人在宇宙飞船里,表情严肃。
接着又回到老爷爷,这一次他坐在桌子前,桌面上还有一个可爱的小机器人。
场景一闪,这次是一个穿着盔甲的骑士站在火把点亮的石墙走廊里。
整个视频节奏很快,画面切换频繁,感觉像是一部电影的预告片。
@Janek Mann 惊叹,「那个较长的视频绝对令人难以置信,它现在真的能讲述完整的故事。」
@Alex Patrascu 表示,Veo 3 领先了竞品好几代,剧本已经翻转了。
画面中是一个半人半机器的家伙,表情狰狞,背景有很多屏幕和电脑,灯光昏暗,空气里的紧张感都传达出来了。
他穿着破旧的长袍,身上还有一些机械零件,胳膊上有电光在闪,看上去像是刚从科幻电影里走出来的反派角色。
从这个画面来看,真的不得不服,整个场景的细节和真实感都太牛了,感觉像是好莱坞大片的一幕。
视频效果被网友盛赞为超级史诗。
谷歌王者归来,正突然取得巨大进步。
Veo 3,特别是通过影视制作工具 Flow,旨在赋能电影制作人和内容创作者。Flow 允许用户创建场景、管理素材、编辑故事情节并控制镜头运动。
Klarna 等公司正在使用 Veo 来提高营销内容创作效率,从而显著缩短制作周期。
数字营销公司 Jellyfish 已将 Veo 集成到其 AI 营销平台 Pencil 中,并与航空公司合作提供 AI 生成的机上娱乐内容。
他们报告称,平均成本和制作时间减少了 50%。
Veo 3 目前还不是免费开放,Google Gemini 的 AI Ultra 订阅者(每月 249.99 美元)才能使用。
想要体验,还得先掏腰包啊。
DeepMind CTO 专访
Veo 3、Deep Think 与 AGI
就在谷歌推出 Veo 3 的 Google I/O 2025 开发者大会期间,DeepMind 的首席技术官 Koray Kavukcuoglu 参加了 The Big Technology 播客。
节目中他与主持人 Alex Kantrowitz 探讨了最新的 Veo 3、全新的 Deep Think 增强推理模式及 AGI 等热门问题。
规模是 AGI 的全部吗?
规模(Scale),是当前推动 AI 模型进步的「明星」,还是一个「配角」?
这个问题,触及了当下大模型发展的核心。
毕竟,谷歌拥有得天独厚的计算资源,似乎「大力出奇迹」是一条显而易见的路径。
Koray 承认规模确实是一个重要因素,这一点毋庸置疑:在任何研究问题中,拥有一个能带来改进的维度总是好事。
但他紧接着指出,在生成式 AI 模型的研究中,规模绝非唯一,它与其他因素同等重要。
哪些因素呢?Koray 列举了几个同样关键的「维度」:
-
架构:模型的内在结构如何设计。
-
算法:驱动模型学习和运行的算法。
-
数据(Data):高质量、多样化的数据与其他因素同样关键。
-
推理阶段技术:如何在模型训练完成后,优化其推理过程。
他认为,评估模型的进步,不能孤立地看规模,而是要研究规模、数据和参数数量这三者的组合。
他强调,整个领域,包括谷歌内部的许多不同模型,都在以显著的步伐改进。他用「相当出色」和「非常令人兴奋」来形容目前的进展。
谈到 AGI 时,主持人引用了著名 AI 科学家、图灵奖得主 Yann LeCun 的观点——仅仅依靠扩展大型语言模型(Scaling Up LLM)无法达到人类水平智能。
Koray 回应道,这只是一种假设,可能正确也可能不正确。
但他认为,没有哪个研究实验室,包括谷歌 DeepMind,仅仅专注于扩展大语言模型。
这背后蕴含的哲理是:实现 AGI,不仅仅是工程上的规模堆砌,更需要在基础研究上实现突破和「发明」。
Koray 认为,通往 AGI 的路上,需要发明许多「关键要素」和「关键创新」。
AGI 是一个极其雄心勃勃、可能是我们一生中遇到的最难的研究问题,因此,拥有一个同样雄心勃勃的研究议程和投资组合,在许多不同的方向上进行尝试,是至关重要的。
「并行思考」的 Deep Think 模式
在谷歌I/O大会期间进行的这次访谈,自然不会错过谷歌的最新技术发布。
主持人提到了谷歌宣布的一项新技术:Deep Think。
最初主持人以为这是一个新产品,但 Koray 澄清说,Deep Think 不是一个独立的产品,而是集成在 Gemini 2.5 Pro 模型中的一种增强「模式」(mode)。
Deep Think 模式的核心在于改变了模型的「思考」方式。它让模型在推理时能够花费更多时间来「思考」。
更重要的是,与传统推理模型通常构建单一思维链(CoT)不同,Deep Think 增强推理模式构建并推理多条并行的思维链。
想象一下,传统模型像一条直线思考,而 Deep Think 则像拥有多个并行的大脑,同时探索不同的可能性、分析不同的假设。
这无疑是一种更接近人类复杂思维过程的方式。
当被问及模型改进的价值,例如提高 10% 或 50% 意味着什么时,Koray 认为很难简单量化。
如果能在数学或复杂推理等领域将模型的理解能力提高 10%,Koray 认为这将是巨大的进步。因为这会极大地扩展模型的通用知识和适用范围。
这种提升不仅仅是分数上的增加,而且是质的飞跃,意味着模型能够处理以前无法触及的问题。
例如,帮助人们学习新知识或解决实际难题。所以,模型的价值,最终体现在它能为人类带来多大的帮助。
多模态的跃进 Veo 3
访谈中还提到了谷歌在视频生成领域的新进展,特别是 Veo 3 模型和 Flow。
视频生成是多模态 AI 的一个生动体现。Koray 回顾了 Veo 3 的演进:
Veo 1 到 Veo 2 主要的进展在于理解物理和动力学,特别是物体对象之间的交互作用。
他提到了一个曾引起广泛关注的例子——切番茄视频,Veo 2 生成的切片过程和物体互动(刀、番茄、切片掉落)非常精确和逼真。
在此基础上,Veo 3 增加了声音生成匹配。Koray 认为这体现了模型对视觉和声音之间交互性和互补性的理解。
「氛围编程」全民创造时代
访谈的最后,主持人问了一个轻松但充满洞察的问题:作为 CTO,你是否是「vibe coding」(氛围编程)的粉丝?
Koray 的回答是肯定的,而且充满了兴奋。
他认为「vibe coding」令人兴奋之处在于,它使得没有编码背景的人也能够构建应用程序——这打开了一个全新的世界。
他以学习为例,你可以向模型描述你想要一个什么样的应用来解释某个概念,模型就能帮你构建出来。
尽管还处于早期,AI 有些地方做得好、有些还不足。但 Koray 认为,这是技术带来的巨大变革,惠及了更广泛人群。
不仅仅是程序员的福音,更是所有想要将想法转化为实际应用的人的福音,一个全民创造的时代正在到来。
参考资料:
https://x.com/babaeizadeh/status/1924942128851124284
https://x.com/fofrAI/status/1924917797366247719
https://x.com/MartinNebelong/status/1924926779677905014