狂飙的AI眼镜,能火多久?

  文定焦 One,作者王璐,编辑魏佳

  有这样一款眼镜,让你无论身处英国、法国还是意大利,都不用担心语言不通,它能将对方说的任何语言实时翻译成你熟悉的文字,甚至连你目之所及的广告牌,也能直接将翻译显示在镜片上。

  不仅是贴身翻译,它还能实时拍照、录制视频,再也不用担心滑雪、骑马、驾驶时不方便记录;如果想听歌或者去某个地方,只需喊一声“Hey XX”,便能唤起音乐、导航功能。总之,手机上的操作几乎都能在这款眼镜中实现。

  而且它不笨重,外观和墨镜差不多,重量仅比普通墨镜多十克左右,售价在 2000 元上下。

  这款黑科技便是国内大厂都在抢着做的 AI 眼镜。

  这股风从国外的 Meta 吹来。去年,Meta 与百年眼镜老店雷朋联合推出了一款名叫「Ray-Ban Meta」的智能眼镜(以下简称 Meta 眼镜),今年 4 月又新增了 AI 功能,立刻受到追捧。据科技媒体 The Verge 统计,截至 2024 年 5 月,这款智能眼镜的全球销量已突破 100 万副。此前,没有任何一款智能眼镜有过如此高的销量。

  这样的爆款效应让很多人意识到,AI 眼镜或是现阶段 AI 最佳的落地场景。

  于是从今年 4 月底开始,华为、百度等各大厂商陆续发布/发售了 AI 眼镜,这股风潮更是在 11 月到达了顶峰,有媒体统计,最密集时,国内外仅 10 天就发布了 18 副 AI 眼镜。

  入局者中,既包括互联网大厂(百度、字节)、消费电子企业(华为、小米、OPPO、TCL),还有 AR 类智能硬件科技公司(Rokid、闪极科技、影目科技等),它们或多或少在自研大模型、硬件设备、销售渠道等方面具备一到多个优势,而且这些 AR 类公司大多有大厂/消费电子企业的投资或合作。

  研究机构 wellsenn XR 预测,从 2025 年开始,AI 智能眼镜将在传统眼镜销量保持稳定增长的大背景下快速渗透,2029 年,AI 智能眼镜年销量有望达到 5500 万副,到 2035 年,有望达 14 亿副。

  如今的“百镜大战”,堪比去年的“百模大战”,入局者还在不断增多,做 FA 的王立表示,“AI 眼镜是投资机构积极在看的少数热门 AI 赛道。”

  但任何火热的赛道都可能面临一定的风险,况且各家之前也给 AI 寻找过包含耳机在内的多种硬件设备做为载体,都没有到达预想效果,这次选择难度更高的眼镜,能成功吗?

  火热的 AI 眼镜:三类公司,三种路线

  据「定焦 One」梳理,目前入局 AI 眼镜的公司可以分为三类,它们的产品及主要信息如下表:

注:仅统计确定发布日期的产品

  在对比这些公司的产品之前,我们先简单科普一下,国内 AI 眼镜的基本功能包括语音识别、音视频播放录制和 AI 调用(比如语音交互、翻译、查询天气交通信息)。综合多位从业者的观点,厂商大部分都是围绕着“音频”、“摄像头”、“AR 显示”三种要素进行组合,价格在 500 元-5000 元之间,功能越多,价格越高,具体可以主要分为三种路线。

  第一种主打音频,没有摄像头、功能较为单一,只能支持语音通话、听音乐等音频功能,比如小米生态链企业蜂巢科技推出的界环 AI 音频眼镜、华为推出的华为智能眼镜 2 等。由于无法支持拍照、录像、视频显示,也有人将这类 AI 眼镜定义为音频眼镜。

  最近,「定焦 One」走访了华为某门店,由于 AI 眼镜行业的火热,不少顾客对店内在售的华为智能 2 眼镜表示好奇,但得知它只能支持音频功能时,便没了兴趣。一名工作人员更是将这款眼镜形容为“眼镜款式的蓝牙耳机”。

北京某商场展示的华为智能眼镜2(共五款,价格在 1699-2299 元不等) 「定焦 One」摄

  第二种是音频+摄像头,在音频的基础上具备了拍照、录像等视频功能,今年大火的 Meta 眼镜,以及百度的小度 AI 眼镜就是走的这个路线。

  第三种是音频+摄像头 +AR(增强现实),不仅支持音视频,还具备增强现实功能,例如,用户在拍完照后,可直接在眼镜上看预览,AR 眼镜公司 Rokid 推出的 Rokid Glasses 属于这类。

  我们再举个例子区别第二种和第三种,比如你在国外看到了一个外文广告牌,搭载 AR 显示的 AI 眼镜可通过摄像头拍照识别广告牌内容,并翻译成中文显示在眼镜上,而没有 AR 显示的 AI 眼镜,只能将翻译结果通过音频输出或者支持用户在手机上查看。

  另外,这三种路线的产品都能够调用 AI 实现互动,也都能搭载大模型,有些是靠自研,有些是采用第三方合作伙伴的技术。

  从技术难度上来说,第一种比较低,国内的 AI 音频眼镜已经推出了一段时间,也有了面向市场的代表性产品,第二种和第三种对技术的要求更高。具体来说,第一种主要依赖语音和 TTS(文本转语音)交互,后两者是图像交互,在语音、TTS 的基础上还加入了显示,且显示的使用率更高,而带 AR 显示的,还需要具备增强现实技术。也因此,绝大多数这类型的 AI 眼镜还处在研发或者“发布不发售”状态。

  相应的,在硬件成本上,也是第一种比较低,只需要在镜框里加上麦克风阵列、耳机、电池和处理器等,第二种需要加上摄像头,搭载 AR 的第三种还需要光学模块。配件多了的同时,还需要解决更高的功耗和散热问题。

  目前入局的互联网大厂、消费电子企业、AR 公司,主要发力的是后两种,它们做 AI 眼镜的目的也不太一样。

  从业者小明告诉「定焦 One」,百度、字节这些互联网大厂,目前做的是第二种,更多是想通过 AI 眼镜跑自己的大模型,而非主要靠卖硬件,相比消费电子企业和 AR 类公司,它们在硬件上也不具备竞争优势。AR 类公司之前也做眼镜,现在是想通过与 AI 结合,找到更多业务增量。至于小米这类消费电子企业,在产品上跟风 Meta,并通过供应链优势压低价格,特别是小米在智能家居和物联网上还具备优势,做 AI 眼镜有一定想象空间。

  期待中的 AI 眼镜,和现实中的 AI 眼镜

  目前,各家在音视频功能上已经做得比较完善。

  比如在语音唤醒和交互功能上,用户可以用声音轻松唤出“XX 同学”等进行对话,或是进行音乐播放、天气播报、信息推送。

  各大厂商还将导航、翻译、提词器、速记整理等各种细化功能接入到 AI 眼镜上,实现让用户不用费劲在手机里挨个打开,只需要简单发出语音指令便能轻松完成。

  视频方面,也能实现比较高的拍摄录像质量。

  比如 Meta 智能眼镜搭载了 1200 万像素的超广角摄像头(和 iPhone11、12 差不多),最长录制时间三分钟,国内直接在这方面卷了起来,小度 AI 眼镜配备了 1600 万像素的超广角摄像头,Rokid Glasses 在摄影时长上能达到 40 分钟,几家都具备防抖功能。

  现阶段,各家企业真正在比拼的,集中在三点。

  首先是重量,要先解决用户佩戴舒适度的问题。普通眼镜的重量在三四十克,在此前已经面市的 VR、AR、MR 眼镜中,即便是相对较轻的 AR 眼镜,大部分也在 100g 以内,难以长时间佩戴,也影响着产品的普及。

  因此,这一批 AI 眼镜厂商非常重视造型设计与舒适度,即在保持一定续航能力的前提下,将 AI 眼镜做到轻量化和小型化。

  由于 AI 眼镜要加入芯片、主板、电池等元器件,目前大多数 AI 智能眼镜的重量在五十克左右,为了让 AI 眼镜的重量无限趋近于普通眼镜,厂商想出了各种方法。

  比如魅族推出的 StarVAir2 采用了超小体积的单绿光引擎,体积缩小 50%,重量减轻 50%,Rokid 将左右镜片上各安装一个光机的双光机方案,精简为鼻梁中间单光机双镜片显示方案,进一步降低重量。

  其次是智能体验,AI 眼镜最大的噱头莫过于 AI。

  用户对 AI 眼镜的期待是,希望它能超过手机,像人体感官一样完美捕捉视觉、声音、位置等信息,从而提供贴心智能服务,但目前AI 眼镜和大模型的结合程度,还达不到完全智能化的水平,导致其能实现的功能都比较基础,例如语音助手、实时翻译、导航提醒、物体识别等,甚至在捕捉信息的灵敏度和准确度等方面,都还有很大提升空间。

  即便是被大家认可的 Meta 眼镜也存在很多 bug,比如在声音上,Meta 眼镜内置了 5 个麦克风阵列系统,扬声器也调大了音量,但在嘈杂环境中还是会受到影响;面对较为复杂的内容回复,其也不会直接念出来,而是提示用户在手机上查看。所以一些用户对 Meta 眼镜的主要定位是,充当耳机、相机、备忘录,使用场景有限。

  而且“和国外相比,国内大模型和国外的 GPT-4o 还存在一定差距,信息检索能力和反馈速度等方面都存在不同程度的短板,大多数 AI 眼镜还没能达到让消费者买单的程度。”小明表示。

  最为关键的一点是,目前 AI 眼镜还不能脱离手机使用。

  小明告诉「定焦 One」,AI 眼镜本质上是硬件部分+大模型,用户通过眼镜识别到图像或语音信息,然后通过 Bluetooth、Wifi 等传递给手机扔到云端处理,再反馈到眼镜上,国内 AI 眼镜本身里面跑的是 Linux 系统,而非智能安卓,AI 功能的实现需要借助手机。

  换句话说,如果手机不在身旁,AI 眼镜便不具备高度智能化。

  续航也是用户担心的一大问题。

  目前,Meta 眼镜只支持三分钟的视频录制,有用户表示,如果重复启动连续拍摄视频,电量最多只能支撑半小时,即便不录制视频,电量也撑不过半天,这离设想中的长时间佩戴还存在差距。

  不过很多国内厂商似乎已经找到了解决方案,Rokid Glasses 官方表示,在明年发售时,续航能达到 4 个小时,并配有充电眼镜盒,20 分钟充满电。小度 AI 眼镜也宣称能连续听歌或打电话 5 小时以上。但这些,都还要等到产品正式发售后才能见分晓。

  AI 眼镜真正爆发,还需要耐心

  尽管现实中的 AI 眼镜离想象中的差距不小,但并不影响从业者和投资人的热情,他们认为,明年会出现“百镜大战”。

  综合从业者、投资人的说法,大家看好 AI 眼镜,主要在于三方面。

  王立看好的是眼镜本身具备的入口优势。

  他解释,现在用户最主要的消费电子产品是手机,而 AI 眼镜被认为是最有可能切割手机 10%-20% 使用时长和功能,并能与虚拟世界产生交互的终端形态,能安装麦克风、扬声器、摄像头、WiFi/蓝牙模块等硬件,从而进行音频识别、视频拍摄、无线通讯、翻译、导航等功能,而且通过视觉进行 AI 问答、物体识别,效率和精确性也高于纯语音。

  “目前,AI 眼镜是 AI 所有硬件产品里天花板最高的赛道,也是投资机构积极在看的少数 AI 热门赛道。”王立表示。

  国外已有成功的 AI 眼镜案例,也给了大家很大信心。

  在交流中,不止一位从业者提到了 Meta 眼镜的高销量。国金证券曾估算,2024 年 Meta 眼镜出货量或达 200 万台,而且考虑到目前 AI 功能仅限美国和加拿大用户使用,若未来区域、语言推广至全球,对应销量或超 600 万台。

  王立认为,Meta 眼镜的销量已经证明了用户对这一赛道存在需求,相比其他 AI 硬件,AI 眼镜跑通了从 0 到1。

  AI 眼镜硬件供应链完善,智能体趋于成熟,也是它被看好的重要原因。

  从业者黄先生告诉「定焦 One」,拿比较复杂的音摄显(音频+摄像头 +AR)组合的 AI 眼镜来说,其涉及的比较重要的光机技术,供应链已逐渐完善,达到了商业化程度,应用端也迎来了智能体的爆发。这一方面降低了成本,AI+AR 眼镜的售价大多能控制在 2500 元左右,另一方面也有了丰富的应用供给,能实现各类功能。

  不过,AI 眼镜目前还处于早期,国内还没有爆款诞生,行业也存在着一些不确定因素。

  首先是市场竞争激烈,但产品差异化不明显。

  不止一位从业者表示,即便各家分属于不同领域,但对 AI 眼镜的认知上没有太大差距,都是在模仿 Meta,而且参与竞争的厂商越多,容错率越低。

  王立表示,投资人在选择一家 AI 眼镜公司时,更关注能不能做出差异化产品,具体看团队对用户的理解度和技术能力,比如是否了解消费者对 AI 眼镜的功能需求、价格接受区间、眼镜外观等,以及团队是否具备这些需求的研发能力。此外渠道也很重要,Meta 眼镜能成功的一个重要原因是选择与雷朋合作,其生产供应渠道非常完善。

  其次,摄像头既是 AI 眼镜重要的一环,也是困扰着从业者的敏感点。

  为了更加了解用户对 AI 眼镜的需求,有部分从业者在做用户调查发现,摄像头功能可能会侵犯个人隐私,降低大家对 AI 眼镜的接受度。

  “在日常聚会或工作会谈中,如果对方一直带着一副有摄像头的眼镜,就像架了一台摄像机,大多数用户都会觉得别扭,产生戒备心,害怕被拍摄或者录下来。”从业者程成表示。

  为了解决这一问题,Meta 想到的解决办法是,加了一个显示提醒,当摄像头开启时,眼镜会亮灯,但程成表示,在实际操作时,用户可以通过很多物理和技术手段将这一提示关掉。

  总结来看,AI 眼镜虽然入局者众多,Meta 眼镜的销量也证明了市场接受度,但这个行业真正爆发还需要时间。究竟谁能够复制 Meta 的成功,要等到明年产品大规模上市后才能揭晓。

  *应受访者要求,文中王立、小明、程成为化名。