来源 Tech 星球
文贾宁宇
要说 AI 圈最近的新顶流,非 ChatGPT 莫属。
它似乎无所不能,可以写诗,做高数题,写代码,回答法律、经济等专业领域的问题。一时间,“ChatGPT 能取代搜索吗”成为了最热议的话题。
没过多久,ChatGPT 自己回答了争议,他态度谦逊,称“我是一个大型语言模型,无法与 Google 或任何其他搜索引擎进行比较”。
ChatGPT 的火爆顺势将其背后采用的技术“AIGC”推向高潮,这是一种通过 AI 自动或辅助生成内容的生产方式,比如 AI 作画、AI 聊天、AI 语音合成等等。
对于许多人而言,AIGC 还是一个新鲜词,但对于百度的工程师来讲则不然。百度是国内最早布局 AIGC 的大厂之一,用李彦宏的话讲,“这是百度天天在琢磨的技术方向”。就在去年年初,百度还精准预言了 AIGC 的爆发。
更重要的是,技术不止停留在纸面上,而是有了现实的应用。去年 4 月,利用 AIGC,百度的程序员们用李彦宏约 300 句公开语音数据生成了 20 万字的语音书。8 月,在 AI 绘画模型普遍英文输入的情况下,早早实现了中文版文生图模型文心·一格。
在百度看来,AIGC 与搜索引擎是互补关系而非取代关系。在 1 月 10 日的 Create 大会上,百度表示,将推进 AIGC 与搜索结合的速度,提升搜索体验,对“生成式搜索”产品进行升级,产品预计近期上线。
这是搜索产品的一次巨大更新。
和 20 年前相比,如今的搜索市场发生了诸多变化,信息的来源不仅是文字,还包括图片、音频和视频;对话方式也在改变,用户有了更多口语化的,模糊的表达。如何更快、更全、更准得给出用户想要的答案,是搜索引擎一直努力的方向。
用户好奇的是,当人类进入第四次工业革命,已经 23 岁的百度搜索还能怎么变?
搜索成为最大的 AI
如果抛开技术的限制,你希望未来的搜索是什么样子?是一把万能钥匙,可以解开你心中所有的疑惑?是一个无所不知的 AI,以易于理解的问答形式,提供准确的答案?
在形式上,它可能不再是一个搜索框,而是一个虚拟数字人。可以通过语音与它直接交流让搜索变得更简单,也能俘获更多用户。
这似乎更符合搜索的初衷。因为搜索引擎诞生至今,一直希望帮助人们更平等便捷地获取信息。
暂且不管未来的搜索。现在,打开最大的中文搜索引擎百度,你会更清楚得感知到搜索的变化。比如当你搜索“韩国有部电影野兽轮船在空中漂着叫什么名字”,这种模糊的表达在过去可能没办法给出答案。
现在,百度构建了搜索领域全球最大的语义推理集群、中文领先超大语义模型,以及基于全网内容的深度问答技术。基于此,针对用户的模糊表达,百度搜索可以迅速给出答案。
再比如,当一个孩子提问妈妈“扬子鳄有多长”时,妈妈搜索出一段扬子鳄的视频后,可以根据搜索提示直接定位到视频中介绍扬子鳄身长的那一段。这时候,视频是更为妥帖的解决办法。
这些搜索体验的升级是过去百度在人工智能领域摸爬滚打 10 年的成果。他们打造了人工智能产品的研发基石:飞桨和昆仑芯片。这 10 年,百度累计研发投入超过 1000 亿,每年研发占比都超过 15%,2021 年更是达到 23%,AI 专利申请量、授予量均连续 5 年蝉联国内榜首。
百度重金投入的原因不难理解。
因为,搜索引擎始终在做一件事情:“如何理解并解答一个人的提问,并给出精准回答”。它的核心技术是自然语言处理,天生具备人工智能基因。换句话说,搜索公司本身就是 AI 公司,AI 技术的进步才能带来搜索的进步。
2020 年,百度推出首个智能可交互数字人度晓晓。度晓晓可以对每个用户形成独特的记忆,进行个性化对话。这背后是超大规模智能聊天模型、虚拟人动作语音实时合成等多项超前的 AI 技术。
不止如此。在百度,几乎所有的 AI 技术都会优先应用到搜索,比如跨模态大模型技术、AIGC 等等。
技术的投入也确实让百度在搜索保持巨大的领先性。这些年来,搜索引擎的挑战者不断,但依然没有任何人可以撼动百度在中文搜索引擎领域的领先地位,甚至百度的市场份额还提升了——过去一年,规模年同比增长 17%。
依托飞桨平台和昆仑芯片,百度构建了搜索领域全球最大的异构计算集群,每天可以进行超万亿次的在线深度语义推理,满足用户每天数十亿次的搜索需求。这样的运算规模远超任何一个人工智能项目,可以毫不夸张得说,搜索已经成为了最大的人工智能项目。搜索也是 AI 规模最大的应用场景。
“知一”、“千流”:搜索进化的又一次双向奔赴
任何产品的进化都是一个“双向奔赴”的过程,需求的诞生催生了技术的发展,而技术的发展又会刺激需求进一步的释放,从而形成一个良性循环。
互联网领域的拳头产品搜索亦是如此。
百度搜索每天响应几十亿次真实的用户使用需求,每天进行 1 万亿次深度语义推理与匹配, 用户的最真实、最及时的反馈倒逼了搜索技术的进一步发展。
2022 年,百度搜索在技术端最大的反馈创新便是“知一”和“千流”。
“知一”是百度在去年万象大会推出的跨模态大模型。在此之前,百度搜索背后采用的是语言理解的大模型。
但互联网发展至今,信息本身早已不纯粹是语言理解的方式,它更多的融合图像、视频和各种各样模态的信息。用户的需求表达也已经从单纯的一个关键词到现在口语化、冷门的表达;表达方式从单纯的文字到语音、图片。
想要搜索服务升级,就必须理解多种模态的信息。而跨模态大模型“知一”恰好可以更好理解各种各样的媒介,以及媒介之间的信息互通产生的信息,最终可以把更满足用户需求的结果呈现出来。
比如,当用户在百度搜索“智能锁哪个品牌比较好”时,百度可以对全网智能锁的商品信息进行智能聚合,生成商品榜单,来辅助决策。当用户搜索“附近的酒店”时,百度不仅可以找到酒店相关信息,还能进行多平台比价,完成⼀站式闭环交易。
现在,“知一”能够完成日均万亿次的超大规模在线预估,能够处理千亿综合语料和百亿视频语料,每天要进行万亿次的推理。超强的计算能力和理解能力是搜索准确度和完整度的保证。
事实上,用户对搜索的要求一直是更全、更快、更准。这也是搜索引擎技术提升的关键指标。
搜索技术本身是一个索引技术。
为了迅速找到满足用户需求的内容,传统搜索引擎依据内容质量横向分层,基于不同的需求去进行一个定向的触发。
但当下的问题是,数据规模超前巨大,搜索引擎又要在毫秒级将检索结果反馈给用户,同时要使得结果尽可能精确。为此,百度搜索推出了新的索引技术:千流。
千流能够把不同维度的信息进行智能有序的组织,将传统索引升级成多领域、多维度表达的立体栅格索引。通过模型对每一个请求进行分析,智能判断检索路径,进行栅格化激活。可以说,“千流”是对搜索引擎后端架构的彻底改造。
这就好像,当你去超市买东西,询问服务员,在哪里可以买到中华牙膏时,原本她只会告诉你哪片区域有牙膏。而千流则可以告诉你在第几排第几列的第几个。千流要做的是,直达用户心中所想。
据百度透露,千流上线后,索引的单位成本降低了 50%,索引计算速度提升了 1 倍以上,实现了效能的大幅飞跃。
事实上,对于C端用户而言,后端技术的一次改变可能无法在短时间内有明确的体验。在一次又一次技术的叠加,足以让搜索体验发生巨大的变化,吸引更多的用户,也让百度的基本盘更加扎实。
在百度内部,李彦宏曾多次强调,永远不要以任何方式遏制用户的需求表达,在百度 20 周年的纪录片上,李彦宏的这句话占了很重要的位置。而知一和千流的推出也表明,百度搜索一直在想办法用技术更好地服务用户的需求。
数据也在证明用户的选择。过去一年,百度搜索的规模年同比实现了 17% 的增长。去年 9 月,百度 App 月活达到 6.34 亿,同比增长5%,在移动互联网流量见顶的当下,这样的成绩绝非偶然。
23 岁的搜索将迎来重大更新
当下,搜索市场规模依然增速稳定,前赴后继的涌入者都证明了市场的潜力,也证明搜索的故事还远未结束。
在 Create 大会上,百度介绍,基于国内顶尖的中文生成式大模型“文心大模型”,百度正在升级生成式搜索。百度希望将过去的检索系统升级成为“检索+生成”。
现在,搜索引擎的主流逻辑是找到用户需要的信息反馈给用户。而在“检索+生成”,系统会把搜索中的信息通过自己的组织,将规整后的答案提供给用户,将给用户带来产品体验的全方位升级。
当前,当用户想了解“北京 GDP 和上海 GDP 谁高”时,百度可以直接基于权威数据自动生成近年两地 GDP 的走势图,直观呈现高低对比、高多少,而无需用户分别搜索两地 GDP 再自行计算。
当你希望用搜索创造出水墨画风格的头像或者情侣头像时,搜索可以通过 AIGC 来生成。生成技术让搜索具备了创造力的同时,还可以更具个性化。比如,同样是搜索“天空为什么是蓝色的”,小朋友、高中生、大学生搜出来的答案可能会有差别。
2022 年,被国际研究机构 Gartner 评定为「本年度五大影响力技术之一」的 AIGC 也会和搜索深度融合。在 AIGC 的加持下,搜索可以给用户带来更加趣味性的体验,比如上传一个头像可以定制自己的兔年版本头像;输入关键词可以定制祝福语等等。
搜索诞生 20 多年,已经成为了互联网一项最核心的基础应用,用户们希望找到最满意的答案。可以毫不夸张地讲,搜索已经是互联网的‘水电煤’。
但它远未定型。从 PC 时代到移动互联网时代,再到如今的 Web 3 时代,百度一直保持着在中文搜索领域的绝对领先地位。过去 10 年,更是不遗余力得投入 AI 技术研发中。
现在,搜索正迎来 AI 技术创新的红利期,一个简单的搜索框背后有跨模态超大模型、有超大规模智能语音聊天模型、有检索+生成等多项 AI 前沿技术。
没人可以确切得知道未来的搜索是什么样,但可以确定的是,他一定是满足用户新需求的,搭载 AI 新技术的产物。站在百度的角度讲,搜索引擎的持续领先可以为其不断夯实基本盘。站在搜索引擎的角度,百度的对手只有自己。