新智元报道
编辑:定慧犀牛
在谷歌I/O大会后,创始人谢尔盖·布林惊喜现身,与 Hassabis 深入探讨 AI 的推理能力、规模与算法、测试时计算及多模态智能体的应用前景。布林强调 AI 时代是计算科学家不应退休的黄金期,AI 影响将远超互联网与手机。
谷歌的I/O大会证明蓝星的科技正统还在谷歌。
除了发布 Gemini 2.5 最新版本继续遥遥领先 OpenAI 的奥特曼以外,还掏出两幅眼镜来拳打苹果,脚踢 Meta。
会后还把谷歌的「开山老祖」谢尔盖·布林(Sergey Brin)请了出来,逼 Demis Hassabis 赶紧在 2030 年前(也就 5 年内了)实现 AGI。
主持人:AGI 在 2030 年之前实现还是之后?
布林:好吧,如果你真以此为线的话,我认为是在之前实现吧。
Hassabis:我说之后吧。
两人相视一笑。
Hassabis:那我得回去努力的工作了。
谷歌I/O大会后,Demis Hassabis 和谢尔盖·布林被叫到一起聊了一会。
涉及到 AGI 可能的实现日期、建立更多的数据中心、测试时计算让模型的能力更强、谷歌眼镜的时机成熟以及谢尔盖·布林为何选择这个时机重返谷歌。
谢尔盖·布林认为当前时期是人类最为特殊的一个时期,他认为:
现在任何的计算机科学家都不应该退休,而是要加入到 AI 研究中来。
人类世界还从来没有出现过如此大的机遇和技术突破。
谢尔盖·布林可以说是互联网 1.0 时代的缔造者和 2.0 时代的见证者,但是他依然认为 AI 时代会完全不一样。
网络和手机已经改变了世界,但是 AI 将会带来更大的变革,尤其是想到 AGI 的到来。
主持问谢尔盖·布林假如回到谷歌后,每天的工作是什么,谢尔盖·布林说我每天的工作就是「折磨」像 Hassabis 这样的人来早日实现 AGI。
下面就来看看布林和 Hassabis 的高能对话。
规模与算法之争
访谈一开始,主持人 Alex 提出了最近大家一直在讨论的「规模」问题:模型的规模是主要因素还是只是个「配角」?
Hassabis 认为数据规模与计算规模两者缺一不可,目前还没有发挥到极致。
但他同时认为也得投入大量精力去探索未来的突破,「可能在半年到一年后会有创新,能带来 10 倍的飞跃。」
布林也认为,算法的进步和计算能力的提升缺一不可。
更好、更多的芯片、更大的数据中心,这些都很重要。布林猜测,算法的突破可能比计算能力的提升更关键。
「不过现在两者都在快速发展,我们正在享受双重红利。」他说。
Hassabis 说我们还需要更多的数据中心,不仅仅是为了训练,大家对模型的需求也非常大,比如 Gemini 2.5 Pro。
尤其是最新的 Gemini 2.5 Pro「Deep Think」模式,给它更多思考时间,表现会更好。
「这确实需要很多芯片支持。」
推理范式:测试时计算
推理模型已经成为当前 AI 的主流范式。
实验以及模型已经证实,更多的测试时计算,即给予模型更多的时间「思考」,在传统大型语言模型(LLM)上加入推理机制能带来提升。
推理范式带来的改进有多大?
Hassabis 表示他一直很相信这种「思考范式」。
回顾谷歌早期在 AlphaGo 和 AlphaZero 上的工作,以及在游戏领域的智能体研究,这些系统都有一个「思考」属性。
这个效果是可以量化的。
以象棋或围棋为例,Hassabis 说他们测试过关闭思考功能的 AlphaGo 和 AlphaZero 版本,模型只会直接给出第一个想法,表现也就大概是大师级别。
但一旦开启思考功能,表现就远超世界冠军级别,差距大概有 600 分。
这在游戏中已经很显著了,而现实世界比游戏复杂得多,加入思考范式的潜力可能会更大。
当然,测试时计算的挑战在于这种对比测试中的基础模型需要首先是一种「世界模型」,这比建一个简单游戏模型难得多。
就像 Gemini 一开始就选择走多模态的路线,虽然当时文本模型如日中天,但是谷歌 DeepMind 还是决定做正确但艰难的决定。
谢尔盖·布林说DeepMind 确实在强化学习方面开创了很多先河。
他举了个例子,就像我们大多数人一样,思考后再说话总是有好处的,虽然我们并不经常这么做。
AI 一旦有了这种「思考」能力,显然会变得更强大。
谢尔盖·布林觉得我们现在才刚触及冰山一角。
这些推理模型真正出现还不到一年(DeepSeek-R1 是今年 2 月的事情)。
关于世界模型,Hassabis 也提到了I/O大会上刚刚发布的 Veo 3。
Veo 3 能直觉地理解光线和重力的物理规律,以前制作电脑游戏,记得那时候得手动编程所有的光影效果、物理计算,超级复杂。
现在模型居然能自己「领悟」这些,真的很不可思议。
AGI
提到 AGI,Hassabis 认为这更像是一个理论上的概念:它指的是人类大脑这种结构本身,到底具备什么样的能力?
人类大脑之所以是一个重要的参照点,是因为它可能是宇宙中唯一证明了通用智能存在的证据。
那么,要达到这个标准,就必须证明系统能够做到那些历史上最杰出的人类——比如爱因斯坦、莫扎特、居里夫人等等——能够做到的各种事情。
Hassabis 说,现在的系统显然还没到这步。
另外,他也觉得 AGI 的炒作有点过头了。因为现在的系统还不够稳定,不足以被称为「通用」。
它们能做很多事情,但你很容易在几分钟之内就能发现一些显而易见的缺陷。比如解不出一道高中数学题,或者玩不好某些简单的游戏。
对于 Hassabis 而言,一个系统要想被称为 AGI,需要在各个方面都表现得比现在稳定一致得多,也许得让一个专家团队花上好几个月才能在里面找到一个明显的漏洞。
「而现在呢,普通人几分钟就能发现问题了。」
接着主持人问了一个更适合布林的问题:AGI 会是一家公司「一统江湖」,还是谷歌、OpenAI、Anthropic 等等人手一个?
布林说这是个好问题。他认为 AGI 不是一个特别精确的点,可能会有多个玩家同时接近那个水平。
之后会咋样呢?很难预测。
布林认为,AI 领域现在竞争很激烈,一旦一家公司有了突破,其他公司很快就会跟上。这种竞争会让更多公司跨过门槛。
主持人 Alex 比较感兴趣的问题则是:AI 需要有情感才能算是 AGI 吗?
Hassabis 觉得 AI 可以理解情感,但是否需要模仿情感,需要选择。
Alex 接着提到他上周看到 Alpha Evolve 的新闻,「吓得差点从椅子上掉下来。」
这个 AI 能帮助设计出更好的算法,甚至改进大模型的训练方式。
「你是想搞个『智能爆炸』吗?」他问 Hassabis。
Hassabis 大笑着说,这是个很有趣的实验,把进化编程技术跟最新的基础模型结合,确实有意思。
他希望看到更多组合式的探索。
确实,自我改进式的发现可能会让事情加速。
Hassabis 之前在 AlphaZero 上见过类似的事情。它能从零开始,在不到 24 小时内自学国际象棋、围棋等双人游戏。
不过,那些都是规则清晰的游戏领域。现实世界则复杂得多,这种方法到底能不能更通用,还得看。
布林重回谷歌
主持人 Alex 问到布林,现在有很多很厉害的 AI,大家都在赛跑,这就是你回谷歌的原因吗?
正如开头所说,布林说作为一个计算机科学家,现在是个很特别的历史时刻。
「任何一个搞计算机科学的人,现在都不应该退休,应该投身 AI。」
布林说他重回谷歌倒不是因为竞赛——虽然他们绝对想让 Gemini 第一个实现 AGI,但能参与这场技术革命,就足以激动人心了。
「我经历过 Web 1.0,那会儿觉得挺激动,后来还有移动互联网什么的,也挺热闹。但 AI 从科学角度看,兴奋度完全不是一个级别!」布林说。
他认为 AI 对世界的影响会比网络和智能手机大得多。网络和手机已经改变了很多,但 AI 的变革会更彻底。
布林调侃他在谷歌的主要事情是「折磨」像 Hassabis 这样的人。
他表示自己每天都与 Gemini 文本模型、预训练、后训练的工作团队混在一起,偶尔也会掺和一些多模态的工作,比如 Veo 3。
关于智能体
其他的科技公司做智能体,展示的通常是能理解上下文、语音交互、主要在屏幕上操作的系统。
但谷歌的演示常常是通过摄像头,特别强调视觉。
对此,Hassabis 解释说 DeepMind 一直都对智能体很感兴趣,目标是打造 AGI。
显然,这种智能体得理解你周围的世界。
在 Hassabis 看来,这有两个超级重要的应用场景:
-
一个真正有用的助理。能在你的日常生活中跟着你,而不是困在电脑或者某个设备上。它得在各种场景下都好用,理解你的物理环境。
-
机器人。随着最新版本的 Gemini 2.5 Pro 及即将推出的视频技术等,Hassabis 觉得终于有了让机器人真正「开窍」的算法了,能够释放出巨大的潜力。
最终,AGI 能做到所有这些事。
DeepMind 一开始就定下了这个方向,所以 Gemini 从最早的版本就是多模态的。
「一开始做多模态比纯文本难多了,但现在我们开始看到回报了。」
关于谷歌最新的「八卦消息」
在这次采访中,谢尔盖和 Hassabis 也分享了一些关于谷歌的其他消息。
谷歌眼镜:时机成熟了吗?
虽然苹果发布了 AppleVision,Meta 发布了 Meta Rayban,但要说起来第一家搞智能眼镜还是谷歌。
谢尔盖·布林承认那个时候犯了很多错误,谢尔盖说最大的问题是第一代的谷歌眼镜「太不像」眼镜。
现在的 AI 眼镜就没有过去那个复杂的臃肿的部分。
而且确实当时存在比较大的技术壁垒,2013 年发布第一代谷歌眼镜时,大模型连影子都看不到。
另一个方面就是谢尔盖·布林承认他当时对电子供应链一无所知。(这就不得不想到库存大师库克,苹果后来的成功很大一部分真的是依赖于库克的供应链能力。)
现在谷歌在I/O发布了 Android XR 系列的 AI 眼镜,一个是对标苹果 Apple Vision Pro 的头戴设备,一个是对标 Meta 的正常眼镜。
Hassabis 赶紧安慰老板,谷歌过去在玻璃眼镜上的经验都很有帮助,他们准备在产品完全准备好以后,再进行发布。
Hassabis 解释说,为什么现在推出谷歌眼镜的时机成熟。
因为通用 AI 助手才是智能眼镜的杀手级应用,过去即使是硬件准备好,但是软件不够用。
而现在「模型即产品」的大模型能力加上越来越成熟的硬件技术,真正的智能眼镜马上就会到来。
数据管理
Hassabis 也提到谷歌对于数据管理是非常严格的。
谷歌给他们所有的 AI 生成的视频都附加了一种隐形水印,可以用工具检测出来,并且这个工具也会同时公布出来。
这对于打击虚假和深度伪造信息非常重要。
最后主持问谢尔盖·布林,你觉得十年后的网络会是什么样子?
不管是谢尔盖还是 Hassabis 都觉得按照现在 AI 的发展速度,没有人能够想象 10 年后会是什么样子。
回望互联网走过的这三十年,似乎一切都是为了 AI 的到来做准备,是否人类是活在一种更高维生物制定的「模拟」之中?
Hassabis 是如此认为的,他觉得物理学的终点就是信息论,人类生活在一个计算模拟宇宙之中,但目前还无法解释。
他说他将会在未来写一篇文章来介绍这么多年 AlphaGo、AlphaFold 以及 AlphaEvolve 系列真正意味着什么,以及他对模拟的看法。
谢尔盖说如果人类生活在模拟之中,那递归的想,模拟人类的物种也生活在另一个模拟之中,那么这个系统将无限递归下去,所以需要一个停止标准,但这个标准是什么?所以他并不认为人类活在这种模拟中。
从另一个角度,如果真的有一个比我们更高级的智慧生命在操纵人类,他具备某种和人类相似的欲望和意识,谢尔盖说如果现实真是这样,他还是挺失望的。
也许 AGI 的最终实现能帮他回答这个问题。
参考资料:
https://www.youtube.com/watch?v=M2ZtBQI2-GY&list=PLADd6sStSis77HKfbf4KCY6SvthfxeUgn&index=2