谷歌劈柴立军令状:必斩OpenAI,夺回第一!

  新智元报道

  编辑:编辑部

  谷歌 CEO 劈柴在年度战略会议上放出狠话,2025 年将是 AI 领域生死存亡之年。一场足以改变 AI 未来走向的巅峰对决,即将在 2025 年全面打响。

  2025 年还未开始,硅谷的战鼓已经擂响。

  在这场 AI 巨头之间的角力中,谷歌 CEO 劈柴放出了一记重磅炸弹。

  在谷歌山景城总部举行的年度战略会议上,身着节日毛衣的劈柴语气凝重地对员工们说道——

2025 年将是关键的一年! 我们必须认识到当下时刻的紧迫性,公司需要以更快的速度前进。这是一个颠覆性时刻,赌注从未如此之高。

  这番话背后,是谷歌与微软 OpenAI 之间愈演愈烈的较量。

  自 ChatGPT 横空出世以来,这家搜索引擎巨头一直在努力追赶。过去两年,谷歌的努力几乎总被爱抢风头的 OpenAI 盖了过去。

  直到 12 月,Gemini 2.0 Flash、Veo 2、「谷歌版 o1」Gemini 2.0 Flash Thinking 等轮番轰炸,一展超越领先模型的潜力。。

  这意味着,这场 AI 竞赛终于迎来了转折点。

  会议现场,劈柴展示了一张大模型的对比图,Gemini 1.5 傲然领先于 OpenAI 等其他竞争对手的模型。

  当被问及 ChatGPT 正成为 AI 的代名词时,劈柴坦言道,「在历史场长河中,你不必总是第一个,但必须出类拔萃,必须在同类产品中保持第一梯队。这就是 2025 年的意义所在」。

  谷歌开发者关系负责人 Logan Kilpatrick 多次暗示,明年谷歌真的要发力了。

  ——预计 1 月份的目标,完整版 Gemini 2.0 正式上线。

  甚至,在谷歌 DeepMind CEO Hassabis 年度总结下面,他称这些都只是开胃菜,好戏将在 2025 年开始。

  有网友预测道,明年谷歌将会把很多强大模型免费推向所有人,而且还会发布直击 o3 的竞争模型。

  为了在这场 AI 革命中占据制高点,谷歌正全力以赴。

  Gemini,下一个 5 亿级用户爆款应用

  对谷歌而言, 可能更糟糕的是竞争对手 OpenAI 在搜索业务的挑战。

  虽然谷歌仍主导搜索市场,但 GenAI 为人们提供了各种访问在线信息的新方式。

  而 OpenAI 正在被更多人看作是 AI 的代名词,如同国外把谷歌看作搜索的代名词一样。

  谷歌背负着巨大的压力,正通过重金投资 Gemini,来巩固期在 AI 领域的领先优势。

  Gemini 应用程序允许用户访问许多工具,包括谷歌的聊天机器人。

  劈柴表示,「建立大型新业务」是重中之重。

  谷歌目前拥有 15 个用户超过五亿的应用, 而高管们普遍认为 Gemini 应用将是下一个。

  劈柴认为 Gemini 应用具有「强劲势头」,但也不得不承认「在 2025 年还有一些工作要做,以缩小差距并建立领导地位」。

  劈柴后来补充道:「明年最大的重点是在消费者方面扩展 Gemini。」

  此外, 谷歌在美国还被法律缠身,包括其在垄断搜索的法律裁定,以及非法主导在线广告技术的指控。

  英国监管机构则暂时认定谷歌的广告技术行为影响了该国的竞争力。

  对此,劈柴表示:「这是我们的规模和成功所带来的。这是科技正在大规模影响社会的大趋势的一部分。因此,此时此刻,我们要比以往任何时刻都要确保自己不会分心。」

  谷歌,「后来者」居上?

  OpenRouterAI 的数据显示,谷歌旗下的 Gemini 在开发者中的市场份额从 9 月份的约5%,直接飙升至>50% 市场份额,遥遥领先,连带股价也上涨了 14%。

  而此时,距离 OpenAI 发布 ChatGPT 的 2022 年 11 月 30 日,已经整整过去了 2 年。

  早在 2017 年,Sam Altman 在一次邮件交流中就明确表示,谷歌 DeepMind 是在 AGI 竞争中最强大的对手,但令他没想到的是,曾经公认的「AI 巨头」谷歌却是个「花架子」。

  ChatGPT 发布以来,几乎成了「AI 的代名词」,不仅迅速征服了市场,还连带着微软起飞,在 Edge 浏览器中嵌入 Copilot AI 搜索助手,直接断崖式领先。

  被寄予厚望的谷歌,反倒是昏招频出,先是 Bard 难产,又经历 AI Overview 总结能力大翻车,建议孕妇吸烟、自杀跳桥等等。

  在 AI 顺风车下,股价不涨反降,谷歌一时间沦为笑柄,被 OpenAI 打的毫无还手之力,更准确的说,连同台竞技的资格都没有。

  让人费解的是,谷歌和 DeepMind 拥有世界上最好的硬件、最多的训练数据、最顶尖的人才,也发过很多具有划时代意义的论文,如 AlphaFold、GenCast 等,但为什么就连 Anthropic 这样的创业公司都打不过?

  网友分析的细节原因不胜枚举,一句话来说,就是「船大难掉头」。

  从安全性上考虑,谷歌作为世界级独一档的科技巨头,不论发布什么产品,其用户群体都不会小,会涉及到各个种族、不同的意识形态,一点小问题就会被无限放大,而文本生成又是非常主观的,很容易受到训练材料的偏见影响,所以谷歌需要更长的时间进行合规检查。

  23 年初,谷歌受舆论裹挟,急急忙忙发布 Bard,在发布会上关于问题「关于詹姆斯·韦伯太空望远镜,我可以告诉我 9 岁的孩子它有哪些新发现?」,Bard 给出错误答案。

  这直接导致公司股价暴跌8%,市值缩水 1000 多亿美元,让投资群体和用户大失所望。

  但其实 OpenAI 的产品也经常胡说八道、张冠李戴,不过因为是创业公司,所以大众的容忍度会高很多,产品标注为 beta 测试,还可以不断迭代修改。

  作为大公司的谷歌,也受到更多法律上的限制,比如用户数据的版权问题。

  谷歌曾因在 AI 训练过程中违反欧盟版权法被罚款 2.5 亿欧元,也是全球首个因 AI 训练数据被罚款的案例,坐拥金山,却无法使用,无异于自断双臂。

  谷歌的产品线庞大,想要在所有产品中都加入 AI 驱动,需要非常细致的产品管理能力,而去年末发布的 Gemini 1.0,因其过度「多样化」的策略,再次导致股价下跌。

  不过,「成功者说什么都是对的」,谷歌重新以王者之姿横扫 AI,未来还计划继续引领「智能体」发展,携手浏览器和手机端,全自动实现用户任务。

  谷歌年度 AI 大事件

  谷歌并非没有看到 AI 市场的巨大潜力, 但 2024 年才算是开始「发力」的一年。

  很多有名气的产品基本都是在今年发布的,比如各种版本的 Gemini,NotebookLM,Pixel 手机上的 AI 功能等等。

  传送门:https://blog.google/technology/ai/google-ai-news-recap-2024/

  谷歌宣称在 2024 年有「60 条重大 AI 发布」, 不妨看看其中几条主要的基础能力。

  Gemini 模型

  去年 12 月,谷歌推出首个原生多模态模型 Gemini 1.0,打响了谷歌的 AI 反击战。

  它可以同时处理文本、视频、图像、音频和代码等数据,结合了包括数学、物理、历史、法律、医学和伦理在内的 57 个学科,也是第一个在 MMLU(大规模多任务语言理解)基准上超越人类专家的模型。

  今年 2 月,谷歌将 Gemini 升级到 1.5,把上下文窗口从 32k 提升到 100 万个 token,超越了同时期所有大模型。

  在推理性能上也有大幅提升,Bard 也正式更名为 Gemini

  7 月,免费版 Gemini 1.5 Flash 发布,支持 40 多种语言,覆盖 230 多个国家和地区,质量和延迟都有大幅提升,尤其是在推理和图像理解方面。

  12 月推出的 Gemini 2.0 Flash 集成了多模态和原生工具使用能力,标志着大模型正式迈入「智能体」时代。

  基于 Gemini 2.0, 谷歌构建了原型项目 Mariner,从浏览器出发探索全新的人机交互方式:训练 Gemini 来理解并推理浏览器屏幕上的信息,包括像素和文本、代码、图像和表单等元素,然后通过实验性的 Chrome 扩展程序自主完成复杂任务。

  在产品方面,谷歌于今年 5 月基于 Gemini 推出 Ask Photos 功能,用户可以通过输入关键词,如地点、人物和日期,或是类似「主题生日派对」等自然语言概念对照片库进行检索。

  NotebookLM

  去年 7 月,谷歌推出了一款 AI 驱动的科研和写作助手 NotebookLM。

  一年后,其底层模型切换为 Gemini 1.5 Pro,用户可以上传研究笔记、访谈记录或公司文件,然后提出相关问题以理解和探索复杂材料,支持幻灯片、pdf 等多种格式。

  9 月,NotebookLM 发布重磅 Audio Overview 功能,模型可以针对用户材料生成两位 AI 主持人互相讨论的音频,可以帮助用户对材料进行「总结」和「深入讨论」。

  不过该功能目前仍然处于实验阶段,比如只会英语,无法打断等问题。

  AlphaFold 3

  今年 5 月,谷歌的 AlphaFold 3 论文在 Nature 上发表,在预测蛋白质与其他分子类型相互作用上性能提升了至少 50%,在某些重要的相互作用类别,其准确率甚至能翻倍。

  论文链接:https://www.nature.com/articles/s41586-024-07487-w

  2020 年发布的 AlphaFold 2 实现了蛋白质结构预测的根本性突破,在包括疟疾疫苗、癌症治疗和酶设计等领域辅助数百万科研人员进行新发现,引用超过 2 万次。

  AlphaFold 3 则跳出蛋白质,进入广泛的生物分子领域,有可能解锁更多变革性科学成果,比如开发生物可再生材料和更具弹性的作物,加速药物设计和基因组学研究。

  11 月,研究人员发布了 AlphaFold 3 模型代码和权重,以供学术使用。

  Pixel 移动端

  1 月份,谷歌宣布为新款 Galaxy S24 系列的录音、笔记等软件基于 Gemini Pro 提供摘要能力;基于文生图模型 Imagen 2,为 Galaxy S24 图库提供生成式照片编辑功能。

  八月,谷歌发布自家手机 Pixel 9,使用全新的定制芯片 Tensor G4 提供 AI 计算能力,整合了大量 AI 能力,包括生成定制天气报告、整理截图信息、本地文生图等多种功能。

  其中最重要的 Gemini Live,能够以更直观、自然的方式帮助用户计划旅行攻略、解决家庭维修问题、构思礼物等等。

  期待明年谷歌即将带来的礼物。

  参考资料:

  https://x.com/tsarnick/status/1872927162757726475

  https://www.cnbc.com/2024/12/27/google-ceo-pichai-tells-employees-the-stakes-are-high-for-2025.html

  https://techcrunch.com/2024/12/28/google-ceo-says-ai-model-gemini-will-the-companys-biggest-focus-in-2025/

  https://www.cnbc.com/2024/12/27/how-googles-sundar-pichai-navigated-a-pressure-filled-year.html