决胜AI时代,搜索超越搜索

  来源 Tech 星球

  文贾宁宇

  要说 AI 圈最近的新顶流,非 ChatGPT 莫属。

  它似乎无所不能,可以写诗,做高数题,写代码,回答法律、经济等专业领域的问题。一时间,“ChatGPT 能取代搜索吗”成为了最热议的话题。

  没过多久,ChatGPT 自己回答了争议,他态度谦逊,称“我是一个大型语言模型,无法与 Google 或任何其他搜索引擎进行比较”。

  ChatGPT 的火爆顺势将其背后采用的技术“AIGC”推向高潮,这是一种通过 AI 自动或辅助生成内容的生产方式,比如 AI 作画、AI 聊天、AI 语音合成等等。

  对于许多人而言,AIGC 还是一个新鲜词,但对于百度的工程师来讲则不然。百度是国内最早布局 AIGC 的大厂之一,用李彦宏的话讲,“这是百度天天在琢磨的技术方向”。就在去年年初,百度还精准预言了 AIGC 的爆发。

  更重要的是,技术不止停留在纸面上,而是有了现实的应用。去年 4 月,利用 AIGC,百度的程序员们用李彦宏约 300 句公开语音数据生成了 20 万字的语音书。8 月,在 AI 绘画模型普遍英文输入的情况下,早早实现了中文版文生图模型文心·一格。

  在百度看来,AIGC 与搜索引擎是互补关系而非取代关系。在 1 月 10 日的 Create 大会上,百度表示,将推进 AIGC 与搜索结合的速度,提升搜索体验,对“生成式搜索”产品进行升级,产品预计近期上线。

  这是搜索产品的一次巨大更新。

  和 20 年前相比,如今的搜索市场发生了诸多变化,信息的来源不仅是文字,还包括图片、音频和视频;对话方式也在改变,用户有了更多口语化的,模糊的表达。如何更快、更全、更准得给出用户想要的答案,是搜索引擎一直努力的方向。

  用户好奇的是,当人类进入第四次工业革命,已经 23 岁的百度搜索还能怎么变?

  搜索成为最大的 AI

  如果抛开技术的限制,你希望未来的搜索是什么样子?是一把万能钥匙,可以解开你心中所有的疑惑?是一个无所不知的 AI,以易于理解的问答形式,提供准确的答案?

  在形式上,它可能不再是一个搜索框,而是一个虚拟数字人。可以通过语音与它直接交流让搜索变得更简单,也能俘获更多用户。

  这似乎更符合搜索的初衷。因为搜索引擎诞生至今,一直希望帮助人们更平等便捷地获取信息。

  暂且不管未来的搜索。现在,打开最大的中文搜索引擎百度,你会更清楚得感知到搜索的变化。比如当你搜索“韩国有部电影野兽轮船在空中漂着叫什么名字”,这种模糊的表达在过去可能没办法给出答案。

  现在,百度构建了搜索领域全球最大的语义推理集群、中文领先超大语义模型,以及基于全网内容的深度问答技术。基于此,针对用户的模糊表达,百度搜索可以迅速给出答案。

  再比如,当一个孩子提问妈妈“扬子鳄有多长”时,妈妈搜索出一段扬子鳄的视频后,可以根据搜索提示直接定位到视频中介绍扬子鳄身长的那一段。这时候,视频是更为妥帖的解决办法。

  这些搜索体验的升级是过去百度在人工智能领域摸爬滚打 10 年的成果。他们打造了人工智能产品的研发基石:飞桨和昆仑芯片。这 10 年,百度累计研发投入超过 1000 亿,每年研发占比都超过 15%,2021 年更是达到 23%,AI 专利申请量、授予量均连续 5 年蝉联国内榜首。

  百度重金投入的原因不难理解。

  因为,搜索引擎始终在做一件事情:“如何理解并解答一个人的提问,并给出精准回答”。它的核心技术是自然语言处理,天生具备人工智能基因。换句话说,搜索公司本身就是 AI 公司,AI 技术的进步才能带来搜索的进步。

  2020 年,百度推出首个智能可交互数字人度晓晓。度晓晓可以对每个用户形成独特的记忆,进行个性化对话。这背后是超大规模智能聊天模型、虚拟人动作语音实时合成等多项超前的 AI 技术。

  不止如此。在百度,几乎所有的 AI 技术都会优先应用到搜索,比如跨模态大模型技术、AIGC 等等。

  技术的投入也确实让百度在搜索保持巨大的领先性。这些年来,搜索引擎的挑战者不断,但依然没有任何人可以撼动百度在中文搜索引擎领域的领先地位,甚至百度的市场份额还提升了——过去一年,规模年同比增长 17%。

  依托飞桨平台和昆仑芯片,百度构建了搜索领域全球最大的异构计算集群,每天可以进行超万亿次的在线深度语义推理,满足用户每天数十亿次的搜索需求。这样的运算规模远超任何一个人工智能项目,可以毫不夸张得说,搜索已经成为了最大的人工智能项目。搜索也是 AI 规模最大的应用场景。

  “知一”、“千流”:搜索进化的又一次双向奔赴

  任何产品的进化都是一个“双向奔赴”的过程,需求的诞生催生了技术的发展,而技术的发展又会刺激需求进一步的释放,从而形成一个良性循环。

  互联网领域的拳头产品搜索亦是如此。

  百度搜索每天响应几十亿次真实的用户使用需求,每天进行 1 万亿次深度语义推理与匹配, 用户的最真实、最及时的反馈倒逼了搜索技术的进一步发展。

  2022 年,百度搜索在技术端最大的反馈创新便是“知一”和“千流”。

  “知一”是百度在去年万象大会推出的跨模态大模型。在此之前,百度搜索背后采用的是语言理解的大模型。

  但互联网发展至今,信息本身早已不纯粹是语言理解的方式,它更多的融合图像、视频和各种各样模态的信息。用户的需求表达也已经从单纯的一个关键词到现在口语化、冷门的表达;表达方式从单纯的文字到语音、图片。

  想要搜索服务升级,就必须理解多种模态的信息。而跨模态大模型“知一”恰好可以更好理解各种各样的媒介,以及媒介之间的信息互通产生的信息,最终可以把更满足用户需求的结果呈现出来。

  比如,当用户在百度搜索“智能锁哪个品牌比较好”时,百度可以对全网智能锁的商品信息进行智能聚合,生成商品榜单,来辅助决策。当用户搜索“附近的酒店”时,百度不仅可以找到酒店相关信息,还能进行多平台比价,完成⼀站式闭环交易。

  现在,“知一”能够完成日均万亿次的超大规模在线预估,能够处理千亿综合语料和百亿视频语料,每天要进行万亿次的推理。超强的计算能力和理解能力是搜索准确度和完整度的保证。

  事实上,用户对搜索的要求一直是更全、更快、更准。这也是搜索引擎技术提升的关键指标。

  搜索技术本身是一个索引技术。

  为了迅速找到满足用户需求的内容,传统搜索引擎依据内容质量横向分层,基于不同的需求去进行一个定向的触发。

  但当下的问题是,数据规模超前巨大,搜索引擎又要在毫秒级将检索结果反馈给用户,同时要使得结果尽可能精确。为此,百度搜索推出了新的索引技术:千流。

  千流能够把不同维度的信息进行智能有序的组织,将传统索引升级成多领域、多维度表达的立体栅格索引。通过模型对每一个请求进行分析,智能判断检索路径,进行栅格化激活。可以说,“千流”是对搜索引擎后端架构的彻底改造。

  这就好像,当你去超市买东西,询问服务员,在哪里可以买到中华牙膏时,原本她只会告诉你哪片区域有牙膏。而千流则可以告诉你在第几排第几列的第几个。千流要做的是,直达用户心中所想。

  据百度透露,千流上线后,索引的单位成本降低了 50%,索引计算速度提升了 1 倍以上,实现了效能的大幅飞跃。

  事实上,对于C端用户而言,后端技术的一次改变可能无法在短时间内有明确的体验。在一次又一次技术的叠加,足以让搜索体验发生巨大的变化,吸引更多的用户,也让百度的基本盘更加扎实。

  在百度内部,李彦宏曾多次强调,永远不要以任何方式遏制用户的需求表达,在百度 20 周年的纪录片上,李彦宏的这句话占了很重要的位置。而知一和千流的推出也表明,百度搜索一直在想办法用技术更好地服务用户的需求。

  数据也在证明用户的选择。过去一年,百度搜索的规模年同比实现了 17% 的增长。去年 9 月,百度 App 月活达到 6.34 亿,同比增长5%,在移动互联网流量见顶的当下,这样的成绩绝非偶然。

  23 岁的搜索将迎来重大更新

  当下,搜索市场规模依然增速稳定,前赴后继的涌入者都证明了市场的潜力,也证明搜索的故事还远未结束。

  在 Create 大会上,百度介绍,基于国内顶尖的中文生成式大模型“文心大模型”,百度正在升级生成式搜索。百度希望将过去的检索系统升级成为“检索+生成”。

  现在,搜索引擎的主流逻辑是找到用户需要的信息反馈给用户。而在“检索+生成”,系统会把搜索中的信息通过自己的组织,将规整后的答案提供给用户,将给用户带来产品体验的全方位升级。

  当前,当用户想了解“北京 GDP 和上海 GDP 谁高”时,百度可以直接基于权威数据自动生成近年两地 GDP 的走势图,直观呈现高低对比、高多少,而无需用户分别搜索两地 GDP 再自行计算。

  当你希望用搜索创造出水墨画风格的头像或者情侣头像时,搜索可以通过 AIGC 来生成。生成技术让搜索具备了创造力的同时,还可以更具个性化。比如,同样是搜索“天空为什么是蓝色的”,小朋友、高中生、大学生搜出来的答案可能会有差别。

  2022 年,被国际研究机构 Gartner 评定为「本年度五大影响力技术之一」的 AIGC 也会和搜索深度融合。在 AIGC 的加持下,搜索可以给用户带来更加趣味性的体验,比如上传一个头像可以定制自己的兔年版本头像;输入关键词可以定制祝福语等等。

  搜索诞生 20 多年,已经成为了互联网一项最核心的基础应用,用户们希望找到最满意的答案。可以毫不夸张地讲,搜索已经是互联网的‘水电煤’。

  但它远未定型。从 PC 时代到移动互联网时代,再到如今的 Web 3 时代,百度一直保持着在中文搜索领域的绝对领先地位。过去 10 年,更是不遗余力得投入 AI 技术研发中。

  现在,搜索正迎来 AI 技术创新的红利期,一个简单的搜索框背后有跨模态超大模型、有超大规模智能语音聊天模型、有检索+生成等多项 AI 前沿技术。

  没人可以确切得知道未来的搜索是什么样,但可以确定的是,他一定是满足用户新需求的,搭载 AI 新技术的产物。站在百度的角度讲,搜索引擎的持续领先可以为其不断夯实基本盘。站在搜索引擎的角度,百度的对手只有自己。