新智元报道
编辑:好困 Aeneas
谷歌早已成为部署高度专业化 AI 任务模型的专家,但当涉及到大动作时,停留在舒适圈让他们得到了惨痛的代价。
谷歌肠子都悔青了。
多年来一心一意崇拜的 VR,目前看来是个假神。
现在眼看着对手微软和 OpenAI 凭 ChatGPT 赚足了眼球,谷歌赶忙转换战略,加速 AI 的研发。
讽刺的是,这一切之所以发生,是因为谷歌此前笃定地认为,自己已经垄断了 AI 的市场。
谷歌确实有理由这样认为。
在 2017 年,谷歌的研究人员发布了著名的论文「Attention is all you need」,引入了 Transformer 的概念,并极大地提升了机器学习模型的潜在能力。
要概括 Transformer 巨大的影响力,只要说这一句话就够了:它就是 GPT 中的「T」。
你可能会问:这么好的东西,谷歌为什么要免费开源呢?
大型私人研究机构过去常常被批隐瞒自己的工作,不过这几年,开源已成一种趋势。
因为,这是一场事关声望的游戏,也是对研究人员的让步——他们更希望雇主别把自己的光芒掩盖起来。
当然,这其中也有傲慢的成分:作为这项技术的发明者,谷歌怎么可能不是它最好的利用者呢?
后来的故事,我们都知道了。
这股 ChatGPT 热,来得猝不及防。
学会理解和利用一种新工具,都需要时间。现在,每家大型科技公司都在探索,AI 的新时代会带来什么,而它们为此需要做什么。
而做出 ChatGPT 基础架构 Transformer 的谷歌,肠子都悔青了。
可以理解,谷歌不想过早地将搜索与他们现有的半生不熟的通用 LLM 模型合并,来宰杀金鹅。他们已经成为部署高度专业化的 AI 任务模型的专家,这些模型可以完成一两件事。
但当涉及到大动作时,他们舒适的位置让他们背上了惰性。
所以谷歌垮台了吗?当然没有,在不久的将来,它仍将是大家默认的一家利润丰厚的大科技公司。只是看起来有点好笑。
不断改进 Assistant,有点徒劳
毫无疑问,谷歌为 AI 领域做出了非凡的贡献。
这几年里,它在设计 AI 计算硬件方面取得了重大进展,为开发人员构建了有用的平台,来测试和开发机器学习模型,并发表了大量论文,从模型的微调到语音合成。
谷歌首席执行官 Sundar Pichai 于 2018 年 5 月 8 日在 Google I/O 2018 大会上发表主题演讲
但是,这家公司也存在一个严重的问题。
不少人都从谷歌员工和其他业内人士那里听到过这样的轶事——谷歌的运作方式太封建了。这里似乎有一种约定俗成的观点,即让项目在现有产品(如地图或助手)的支持下运转,才是一种可靠的挣钱方式。
因此,尽管公司里已经囤积了许多世界上最优秀的 AI 研究人员,但他们的才能似乎只能受困于企业战略的轨道。
这样做的结果是什么?让咱们来看看下面这个时间表。
2018 年,谷歌的成果是改进了 Google Assistant flow、Photos(比如为单色图像着色)、带有「视觉优先版助手」的智能显示器(有人见过吗?)、地图助手、AI 辅助的 Google 新闻和 MLKit。
Google Assistant 即将登陆 Google 地图
2019 年,谷歌展示了更出名、尺寸更大的智能显示器、AR 搜索结果、AR 地图、Google Lens 更新、网络 Duplex(还有人记得 Duplex 吗?)、可以在本地完成更多工作的压缩版 Google Assistant、Waze 中的助手、驾驶模式中的助手、实时字幕、现场传播(语音识别)以及一个更好地了解语言障碍人士的项目。
当然,可以肯定地说,其中某些产品很棒!
然而,它们中的大多数只是一个现成的东西,区别是得到了 AI 的推动。
谷歌推出 ML Kit,这是一个 SDK,可以轻松地将 AI 添加到 iOS 和 Android 应用程序
现在再回想起来,很多人都会感觉到,谷歌的确有点畏缩。
像谷歌这样的大公司,本应该是能顺应趋势、推动潮流的。
谷歌推出了 Duplex,这是一种基于人工智能的客户服务工具,旨在帮助小型企业(如餐馆和美发沙龙)接听更多电话、回答常见问题并安排预订
而在 2019 年 2 月,OpenAI 有这样一条新闻:《OpenAI 构建了一个非常好的文本生成器,但因为太危险,所以不能发布》。
这条新闻里讲的不是 GPT-3,不是 GPT-3.5……而是 GPT-2。
2020 年,谷歌制作了一个由 AI 驱动的 Pinterest 克隆,然后在 12 月解雇了 Timnit Gebru——AI 伦理领域的主要发声人之一,因为他写了一篇论文,指出了这个技术的局限性和危险。
虽然如今我们看到了 ChatGPT 的大红大紫,但其实当初 OpenAI 的联合创始人 Sam Altman 也曾不得不亲自压制对 GPT-3 的炒作,因为它超过了可承受的水平。
而在 2021 年,谷歌的大语言模型 LaMDA 首次亮相,但谷歌并没有真正把它推向市场。据悉,除了减少 Assistant 抛出的错误之外,谷歌仍然在寻找让它存在的理由。
而 OpenAI 的 2021 年是以 DALL-E 开始的,这个文本的图像模型很快变得家喻户晓。
OpenAI 证明了,通过 CLIP 等系统,LLM 不仅可以执行语言任务,还可以充当通用的解释和生成引擎。
2022 年,谷歌干的事情就是对 Assistant 的更多调整、更多的智能显示器、更多的 AR 地图,以及花 1 亿美元收购 AI 生成的个人资料图片(收购 Alter)。
同一年,OpenAI 在 4 月发布了 DALL-E 2 ,在 12 月发布了 ChatGPT。
或许在 2022 年初的某一刻,当谷歌高管睁开眼睛的时候,被眼前的东西吓坏了。
可以想象,疑惑的谷歌高管们急忙发送电子邮件,询问为什么一些有活力的初创公司正在围绕着 OpenAI 运行。
证据是,Imagen 在 DALL-E 2 发布一个月后就退出了,实际上,退不退出也没什么区别,就像谷歌公布的其他 AI 研究一样,任何人都无法测试它,更不用说连接到 API 了。
然后,Meta 在 9 月发布了 Make-A-Video 后,谷歌在一周之后就以 Imagen Video 做出回应。然后 Riffusion 在生成音乐方面掀起了波澜,一个月后,MusicLM 就出现了(同样的,我们仍然不能用它)。
但可以肯定,谷歌这样对别家亦步亦趋,正是因为 ChatGPT 带给谷歌领导层的焦虑,让他们只能全力以赴。
但其实内部人士都知道,ChatGPT 与谷歌投资了十年的助理产品截然不同,后者其实是假装出来的伪 AI(实际上只是一组 API 的自然语言前端罢了)。
但谷歌被生存竞争吓到了。
时势造英雄
不过,现在就把必应称为谷歌搜索的「竞争对手」还有些为时过早,毕竟与 Google 的 92% 相比,必应在全球的份额仅为3%。
但搜索引擎,成功地将微软对创新的需求与大规模语言模型的核心竞争力结合了起来,进而造就了最新的 GPT 模型与必应和 Edge 的整合。
看到这一点的谷歌显然是急了,于是抢在微软发布 ChatGPT 版必应的前一天,试图用一篇空洞的博文来吸引眼球。
但由于发布得过于匆忙,以至于在两天后的「搜索和人工智能」活动中,谷歌甚至都没怎么提到有关 Bard 的内容。
此外,用来宣传 Bard 的图片里,还包含一个非同小可的错误:詹姆斯-韦伯太空望远镜「首次拍摄了太阳系外行星的照片」。显然,这是错的。
更令人震惊的是,谷歌内部竟然没人发现,甚至没人关心这个问题。
当然,ChatGPT 也有自己的问题。
但谷歌仓促出手,并在如此明显地被绊倒。恰恰说明,即使是在有限的、实验性的水平上,谷歌也缺乏准备,更不用说像微软这样已经开始在全球推广了。
谷歌还是那个谷歌
那么,这是不是意味着谷歌的衰落?
当然不是,在不久的将来,它仍将是我们默认的搜索引擎,以及一家利润丰厚的公司。
但从随后的股价大跌上也能看出,投资者的信心已经被动摇了。
事实证明,谷歌在过去几年里,都没有进行任何有意义的创新。而这可能并不是出于智慧,而是出于自傲。
不过,当新的技术尚未证明自己能够像所有人想的那样有价值时,我们也无法做出过多的预测。
参考资料: