国思软件 - 电厂 | I/O 2024，Google 吹响通用 AI 反击号角

　　记者张勇毅

　　编辑高宇雷

　　有了 24 小时前 OpenAI 用 GPT-4o 带来的炸场之后，今年的 Google I/O 还未开始，似乎就被架在了一个相当尴尬的地位，即使每个人都知道 Google 将发布足够多的新 AI 内容，但有了 GPT-4o 的珠玉在前，即使是 Google 也不得不面临巨大的压力。

　　这种奇怪的气氛贯穿了今年 Google I/O 主题演讲始终，除了 CEO 皮查伊演讲少了很多自信、多了一些此前少见的不自然感与口误之外，今年 Google I/O 还贡献了历年最奇怪的暖场活动，是以一次 AI 工具的翻车为开场：一位从舞台上的茶杯中钻出的 DJ，在台上使用 Google 内部开发的一款 AI DJ 小工具 —— MusicFX DJ，在舞台上现场用随机生成的关键词，来创造出一首曲目。

　　虽然创作出的曲调很糟糕，甚至现场效果还有点魔幻，在社交媒体上遭到大量猝不及防的开发者一致吐槽，但好在 Google 还是用两个小时的时间，给这个世界再一次带来了足够多的惊喜 —— 以及对 OpenAI 与微软的反击。

　　开场首先，皮查伊先带我们回顾了过去一年 Google AI 主打产品 —— Gemini 的主要进展，如果说全年 I/O 全场出现频率最高的词是 AI 的话，今年毫无意外将变成 Gemini；首先是 Gemini Advanced 在发布三个月之后就已经获得了超过一百万用户；以及两个月之前发布、最高支持一百万 Token 上下文识别（通行计算方法中约等于 50 万中文字符）。的 Gemini 1.5 Pro，今天起将面向全球用户正式推送。

　　不仅如此，Gemini 1.5 Pro 还从原本的一百万 Token 上下文升级至两百万 Token 上下文识别。这意味着在多模态处理中能处理超过三万行代码，或是超过一小时的视频文件。

　　在介绍了 Gemini 本身之后，就到了 Gemini 真正的长处 —— 应用内整合体验中，皮查伊先是演示了整合在相册中的功能，在停车并给车拍了照片之后，当你找不到停车的位置，可以直接问 Gemini “我的车在哪”，它就能帮你自动识别相关照片中的信息，提示你车停在了哪里。

　　这个功能被称为。Ask Photos，将于今年正式发布。

　　在 Google 办公套件中，如今也迎来了 Gemini 更深度的整合，不仅能在 Gmail 中生成线上会议纪要、在所有邮件中提取关键信息。还能与 Google 表格联动，自动整理邮件中包括的表格文件，甚至是生成一个数据分析表格。

　　为了提升用户日常处理工作内容的办公效率，Google 还将 Gemini 的功能包装成了一个 AI 员工 —— AI Teammate，来充当你工作中的一个人工智能助理，帮你整理各种信息并借助大模型来实现更智能的反馈，例如从邮件中提炼信息，甚至是会议录音中的关键信息。

　　除了办公套件之外去年作为探索项目登场的 Notebook LM 今年也公布了新进展：作为 Google 生成式 AI 直面教育应用场景的项目，这被外界看作是对 OpenAI”撞车“最直接的回应。

　　在现场的演示中，NotebookLM 不仅能很好地充当一个老师的身份、讲述一组简单的物理课程，还能模拟两个演讲者，生成一个类似对话的讲解内容。在用户提问“你能举个例子吗”这样的问题时，实时给出一个准确的回答。让你能够更准确地掌握物理原理中的细节。

　　Google 同时还针对去年发布、在 Android 手机上实现画圈搜索功能的“Circle to Search”功能加入了更多教育相关的使用场景：现在这个功能已经支持识别画面中的数学题以及符号公示等复杂的内容。

　　在 AI 行业早期，除了 OpenAI 之外，还存在着另外一个聚集了业界大量人才的组织 —— 那就是如今已经被 Google 收购并整合的 DeepMind。

　　但在过去十余年时间中，DeepMind 长期以一种低调的印象示人：以研究成果定胜负，而不是像 OpenAI 管理层一样，在各种演讲中抛头露面发表言论。

　　但在今年 I/O 上，DeepMind 创始人哈萨比斯第一次出现在 Google I/O 舞台上，来给金主“救火”，Alphabet 内部对 AI 的紧迫性可见一斑。

　　这位 AI 行业举足轻重的大牛上台，却看似轻飘飘地发布了一个针对端侧的模型 —— Gemini 1.5 Flash，甚至现场观众都有些没反应过来他是在卖什么关子，直到哈萨比斯说出他们的最终目的 —— 打造通用强人工智能。

　　实现这个目标的具体步骤，就是哈萨比斯介绍的新项目 —— Project Astra，探索通用人工智能如何在日常生活中为我们提供真正日常生活所必须的帮助。

　　作为对这个问题的直接回应，哈萨比斯现场展示了 Astra 的一个使用视频：操作者以智能手机为媒介，让大模型实时收集环境中的各种信息，并在围绕着办公室转了一圈后突然提问：你记得眼镜在哪里吗“。

　　在正常的环境中，即使是两个正常人类之间对话，也可能会忽视掉这些细节，但演示中的 AI 却精准地从众多环境信息中捕捉到了眼镜的位置，并给出了正确的方位提示。这种强悍的通用语言与环境理解能力将现场气氛推向了最高潮，也再一次向外界展示了 Deepmind 作为传统 AI 强手实力的冰山一角。

　　哈萨比斯还特别提到，这些演示项目并非刻意实现、“仅供参考”的演示效果，两个短片中的所有实现效果都是一次完成。这意味着当前 Project Astra 已经能非常流畅地实现这些效果。

　　除了对通用人工智能的探索之外，哈萨比斯还介绍了 Deepmind 在多模态领域的新进展：将在图像、音频以及视频三个主要内容领域全方位出击。分别是能够生成超过 60 秒、画质为 1080p 的视频片段的视觉模型 Voe、文生图模型 Imagen 3、以及面向专业音乐创作者的音乐合成工具 Music AI Sandbox。

　　TPU 硬件的更新也是 Google I/O 主题眼镜中的保留项目，每次伴随着 AI 新技术发布，TPU 作为驱动软件的硬件引擎都会随着更新迭代。

　　这次主题演讲中 Google 发布了代号为 Trilium 的第六代 TPU 硬件，计算能力相比前代提升 4.7 倍，预计将在 2024 年年底面向用户推出，本次发布会中出现的 Veo、Gemini 1.5 Pro 等几乎所有产品，都是在这些新硬件上计算而来。

　　Android 也不能免俗，将 AI 功能更新作为今年介绍的重点。尤其是 Gemini 在 Android 系统中更深度的整合。

　　实际上今年的 Android 15 当然也不只有 AI 功能，但 Google 为了给 AI 功能让路，在首日的主题演讲中介绍的都是 Android 15 中与 AI 相关的动态，剩余的内容被挤到了次日的分会场演讲中。

　　Gemini 作为一个独立 App 在 Android 端已经存在一段时间了，这次 Google 终于进一步发挥了“主场”优势，将 Gemini 进一步整合进操作系统中：现在在 Gemini 对话中生成的图像可以被直接拖拽到其他应用中使用。

　　这次 Gemini 在 Android 上的最新进展是 Gemini Live，主打使用语音的双向流畅对话体验，在对话过程中你甚至可以像现实与真人对话一样，通过打断对话、提出新问题的方式来更高效的沟通。Google 同时预告基于 Project Astra 实现的摄像视频识别功能也将在今年年内发布。

　　这个功能实现的原理，是将视频内容逐帧拆解并交给 Gemini 识别，在效果上实现接近“理解世界”的效果。例如当你不会用某款相机时，用手机镜头对准相机并提问，Gemini 就能够从画面中识别出相机的型号，并根据你的问题，搜索相关内容给出使用教程。

　　另一个重要功能更新是 Android 15 中的 Gemini 支持了 YouTube 视频内容识别，Gemini 在视频播放界面可以直接提取视频相关的信息，并回答用户各种关于视频的问题，甚至是生成视频内容摘要。YouTube 上数十亿个视频都可以使用这个功能。

　　除了这些联网功能更新，去年发布的、完全基于端侧算力实现的 Gemini Nano 则是更多本地功能的基础；基于本地模型实现的功能不仅能更快速地实现诸如画面内容识别等无障碍功能，还能在更多隐私需求更高的应用场景中，比如这次新发布的基于本地语音模型、通过对话内容，判断出对方是否可能是诈骗电话。

　　通过 Gemini Nano 模型本地实时处理，在检测到诸如“银行”“转账”等关键字眼以及上下文之后，手机的通话界面会弹出一个“这可能是诈骗电话”的提示，并给出诸如“银行不会要求你通过电话转账”这种可能的理由。

　　毫无疑问，在智能手机端，端侧模型的潜力还有巨大的挖掘空间，这次模型本身能力也得到了加强，Gemini Nano 在原本仅支持文本识别的基础上，将于今年内增加视觉、听觉与口语的识别支持。

　　去年在 OpenAI 改变世界之后，Google 也只是被改变的一部分：2023 I/O 中即使充满了各种 AI，也很容易给人一种“凑数”的观感：以至于“演讲中出现了多少次 AI”的恶搞视频，反而在主题演讲结束后，成为社交媒体上被疯传最多的内容。

　　到了 2024，即使 OpenAI 还想在复刻一把“偷袭”，但 Google 这次的准备显然更加充足自信，甚至 Google 官方也还玩了去年的梗，主动问了观众“我们今年说了多少次 AI”？‍

　　对于这个问题，皮查伊的回答是将演讲的文稿直接扔给 Gemini，让它提取文本中内容来回答，答案是 120 次，然后在说出这句话的同时，数字变成了 121。

　　这个小小的幽默其实也揭示了 Google 对 AI 的开放态度：任何问题都尝试用 AI 来回答。皮查伊还重新强调了 Google 在 AI 领域的目标”整理世界所有的信息为你所用“，Google 在软件侧的所有软件更新几乎都是在践行这一目标。

　　从这一点来讲，有着广泛应用生态与用户的 Google 生态，仍然有着巨大的先手优势。加上本次 I/O 中展示的既有当下就能立即使用到的 Gemini 更新，也有类似 Project Astra 这样极具野心的前沿探索项目，一系列组合拳之下，Google 在 AI 领域的第一梯队位置再一次得到了稳固。

　　至少从这次 I/O 我们看到新内容的分量来讲，Google 仍然是 OpenAI 最强力的竞争对手，即使它曾经短暂地落于下风。

电厂 | I/O 2024，Google 吹响通用 AI 反击号角

我们的产品

相关链接

关于我们

联系我们