从Air到Max,Rokid问题究竟在哪

  文 AR 研究媛

  势和时

  2022 年下半年,如此惨淡的经济和投融资大环境,几家 AR 初创公司在中国融到了动辄千万美金的融资,仿佛 2016 年、2017 年的泡沫盛世再现。

  资本眼里,智能手机出货量跌到甚至不如 10 年前,巡视一圈,消费电子接力棒大概率只在 VR 或者 AR。

  而 VR 天花板非常明显,因为 VR 在户外不安全,臆想以 VST 摄像头来实现环境透视注定不如双眼,它有延迟,也不能快速对焦,强烈环境光下还有图像噪点和过曝的问题。VR 打造视觉沉浸完全包裹式的设计,闷且重的头盔形态即使能改进,它更偏静态、肢体活动范围更固定,应用场景注定有限。体感游戏机几乎是 VR 商业化的全部想象力。

  相比之下,AR 新建了一个真正数字化的三维空间,这个空间以高透光、可视化的真实空间为基础,跟你的日常生活息息相关,未来你无时无刻都要置身其中。而且理论上 AR 可以包含 VR,只要镜片透光率降低到0,就切换到完全计算机生成的虚拟视觉沉浸世界。

  To C,工作、生活、学习、娱乐,AR 可以带来独一无二的虚实交互新奇体验;To B ,工业检修、园艺游览、远程指导、医疗培训、战场信息透视和增强...空间通过数字化的视觉改造和增强,辅助以语音、手势、指环/肌电交互,提升效率,提升生产力。

  以传言中苹果 MR 头显主推「空中打字」功能为例,理想状态下,你眼前随时随地可以「开启」一个高清显示屏,环境中再投影出一副虚拟键盘,高精度传感器识别手指敲击和鼠标拖拽等精细动作,在星巴克坐着你可以一边喝咖啡一边在小桌子上虚拟敲击投影键盘,空间映射浏览网页、编辑文档和修改 PPT 等操作,就实现了真正的 AR 办公。一副轻便 AR 眼镜足以替代笔记本电脑的日常高频应用。

  AR 让你眼前整个世界变成可直观可抽象,可静态可演绎,可以深度增强和改造的,潜力巨大。

  但是 AR 太难了。

  微软 Hololens 和 Magic Leap 展示了什么

  全功能 AR 眼镜微软 Hololens 1/2    、Magic Leap 1\2,两家有充足的资金和智力资源公司,都被迫从 to C 转向 to B,我们可以从中窥视 AR 难度在哪。

  成像上,LBS(激光扫描)和 LCoS(硅基液晶)光引擎可以调制和投射出 1080P 和 2K 分辨率色彩表现较好的画面,但是功耗和体积很难缩小,亮度也上不去。超小体积、超低功耗、超高亮度 Micro LED 光引擎是未来,但 AR/VR 目前基于单片集成工艺的 Micro LED,一是无法在源生发光材料层面做 RGB 正常彩色显示,只能依靠棱镜合色、量子点转色、像素垂直堆叠等工程化方法。二是红光 LED 在 LED 芯片尺寸缩小到5-10μm左右时,发光效率急剧降低,无法兑现理论上的低功耗高光效,还需要持续探索红光 LED 新的材料和芯片结构方案。

  光学显示上,衍射光波导轻薄、高透光,能看到自然环境,搭配其他技术还可实现环境光可调,大大增强了 AR 眼镜的实用性。衍射光波导也一直在提高光效率,扩张水平和垂直方向 FOV,增大 eyebox,消除彩虹纹,实现更好的色彩饱和度和色彩还原,呈现更干净更真实画面。但模拟人眼最自然透视三维空间环境,虚拟视觉叠加到真实环境,会遇到 VAC 视觉辐辏调节冲突、多重景深、黑色视觉遮盖等难题,衍射光波导方案目前无法解决。这意味着光波导眼镜长时间佩戴一定会有或轻或重的眩晕和不适感,AR 画面与真实环境无法做到 100% 的视觉融合。Magic Leap 曾花费了极大精力、资源、多年研发的独有技术 FSD(光纤扫描显示),以期待实现多重景深和类光场显示最符合人眼习惯的效果,终是黄粱一梦。

  AR 眼镜最重要虚实融合功能,微软 Hololens 或 Magic Leap 的传感器和定制芯片数量众多,它们有多个 RGB 摄像头来进行手势识别,以及实现 SLAM 三维空间定位和建图,一个或几个红外相机用来眼球追踪交互和画面渲染。最近一两年的技术升级方向,用 SPAD sensor 的消费级激光雷达 SLAM 精度能更高,以 event camera 来实现眼球追踪,画面渲染功耗和延迟都能明显降低,还有更好的 RGB 摄像头和手势识别算法,或者更直接的肌电交互,都是可见的技术方向。但这些传感器如何小型化、低功耗,高度精密整合到一副轻量化眼镜上,进展非常有限。

  全功能一体式 AR 眼镜在现有技术条件下,笨重的头盔形态,1-2 小时的续航,应用场景被限死在工业和企业端。

  相比之下,VR 这一类多为头盔形态,源于它完全做一个计算生成的虚拟世界,要隔绝现实物理世界打造沉浸,大 FOV 并且隔绝外部视线,光学设计是 VR 体积做不小的关键原因。而功能完全的 AR,难度更高。AR 光学不是计算机生成的平面二维,真正的三维空间做虚拟视觉、交互和动态演绎,对传感、计算、对光学要求是全方位环环相扣超高难度,现有技术条件下只能做取舍。

  AR 太依赖光学、显示、高精度的 SLAM 和新型交互传感器、专属算力芯片和算法的进步,还必须牢牢限定在极低功耗和极小体积的前置条件上。更进一步,消费级 AR 眼镜最好做成普通眼镜的重量和体积,终端市场才能最大限度接受它。

  出路在哪?

  国内 Rokid 领头,从 Air 到 Max

  消费级 AR 现阶段大多是妥协式产品方案,拿掉本地算力、电池和存储,没有传感、手势识别和交互,只有最静态的虚实画面融合。

  分体式主打C端的 AR 眼镜,得益于近些年高亮度高饱和色彩 Micro OLED 微显屏成熟,关键厂商索尼和视涯均实现了硅基 Micro OLED 高良率量产并且成本降低,这给 BirdBath/自由曲面原理的 AR 眼镜带来了质变。BirdBath 眼睛目前显示效果突出,在虚拟大屏观影、游戏、办公上实现了场景突围,从 2021 年底到 2023 年年初,Rokid、雷鸟、Nreal,乃至后面的华为、魅族、中兴、荣耀,正把 AR 观影市场一点点做起来。

  同时进行的,单色 Micro LED+ 光波导+轻量 SLAM 主打信息提示的 AR 眼镜,INMO、小米、李未可、OPPO 也在消费市场投石问路。

  3 月 21 日晚 8 点,守在电脑前全程看完了 Rokid 的发布会,个人感觉从 2021 年年底 Rokid Air 面世到 2023 年 Rokid Max,除了虚拟投屏尺寸增大,进步完全是乏善可陈。以下是根据发布会产品内容的几点推断:

  1. 投屏尺寸做大,依赖采购索尼更高规格的 Micro OLED 微显屏

  2. 近眼显示光学设计有短板,倚靠供应链厂商,缺乏深度设计能力 

  3. 根据眼镜顶部的厚度判断,Rokid Max 光机大概率沿袭了上一代 Air 小 eyebox 和很短的出瞳距离,让 IPD 设计难度增大。IPD 适配出问题导致双眼合目容易出现重影,短出瞳距离导致 VAC 视觉调节眼球辐辏冲突更明显,长时间佩戴眩晕和不适加重 

  4. 关键的光学模组 MTF 参数,从画面边缘到中心的畸变矫正没有披露,减小色差、过滤炫光和杂散光的光学设计改进也没说明,这两项十分影响真实的画面显示质量 。唯一的光学介绍居然是类似 Nreal Air 减少正面漏光注重个人隐私的「墨镜」设计。

  5. 发布会演示的灵境,创作时的交互精度、用户学习成本、实用性、体验存疑

  6. Rokid Max Pro 以黑白化周围环境来对比凸显彩色视觉增强信息,毫无技术含量可言,甚至是一种倒退

  Rokid 的问题在哪

  总以黑色卫衣示人的 Rokid CEO,特立独行风格 Rockie,但这只是表象。

  Nreal  和 Rokid 两位创始人都是海外归国的年轻极客创立的,但是两人的专业背景和产品方向并不同。

  Nreal 的创始人徐驰曾在 NVIDIA 参与过新一代 GPU 计算平台的研发,而后加入 Magic Leap,负责头部跟踪定位算法实现及嵌入式优化。Rokid 创始人祝铭明 UC Berkeley 博士毕业,成立猛犸科技被阿里全资收购,在阿里M工作室主要负责深度学习,视觉和自然语言处理的研发。

  媒体描绘徐驰的时候,并没有像祝铭明那样「天马行空的技术理想和热情」,更偏务实、理性,对产品、技术、商业理解更「结合」:

  “我很庆幸自己在浙大毕业后,没有因为一时冲动而创业。和身边的朋友们一样,我们大多怀揣着创业梦想。于我而言,当认清自己的缺少工作经验的现况下,我决定在工作中一边学习一边积累,再去寻找合适的发展方向。” 

  “我最初的想法也是极其单纯、幼稚、甚至偏理想主义的,但这是一个避免不了的状态,每个创业者都会经历这样的一个理想到实际的落地过程,这些都是很正常的。” 

  “其实我只是把技术和市场对接起来,因为这样会吸引越来越多优秀的人才回国,大家才能一起将事业做大做强。”

  相比之下,祝铭明掌控的 Rokid 这家公司的整体风格,比较硅谷范,精英味道比较浓,大把的融资可以造。官网产品内容和出街的营销素材就能看出来,品牌视觉比较突出,坏处就是不够落地,不够「本地化」,不够完全瞄准用户。

  “ C端产品在当前阶段不足以代表整个 Rokid ”

  务必去感受一下公司一楼的展陈设备,那也是能代表 Rokid 的东西(AI、AR 技术与博物馆放在一起)” 

  我们是一家做人机交互的公司。” 

  Rokid 做的东西确实有点宽,从 AI、音箱到 AR,AR 眼镜也是先切企业场景,众所周知企业和政府事业单位的 AR 眼镜都瞄特定场景,也并非高频使用,追求产品功能性,胜于日常体验。Rokid Air 就是这样一个有强烈的工业设计风格,有技术细节偏执,但是不注重整体体验和欠缺一定C端产品思维的产物。

  主打观影的 BirdBath 眼镜,追求的应该是近眼显示最舒服的设计,这要求一定的适眼距即光学设计上把出瞳距离做大,以及大 eyebox 可以最大限度地保证佩戴眼镜的灵活度。还有更注重矫正画面边缘的畸变和色差,呈现最好的显示质量,这意味着要将镜片模组的 MTF 值做好,在细节要害之处,比如光引擎投射光调制和光学镜片镀膜上深度研究。

  但上一代 Rokid Air 的出瞳距离、eyebox 两项指标,相比 Nreal Air、雷鸟 Air / Air 1S,居然是最小的。镜头 MTF 值,也是最差的。

  这一代 Rokid Max 发布会凸显的居然是近视可调功能和减少正面漏光的隐私偏好设计,没有花一点篇幅讲 MTF、eyebox、出瞳距离等光学设计。而 Rokid 重点营销的近视可调功能,无论 Air 0-500 度屈光度调节还是 Max 0-600 度加上无损画面,为啥 Nreal 和雷鸟两家偏偏不用这源自供应链厂商的方案,老老实实选择了近视配镜,光学设计选择适宜的出瞳距离便于用户佩戴眼镜?

  BirdBath 目前近视屈光度调节方案,调的是画面,并非近视眼镜那种光学层面,而且还调不了散光,实用性存疑。还有画面调焦对 IPD 的影响,可能出现人眼双目合目重影的副作用,Rokid 产品经理可能并未真正深入研究过。

  来自惠牛科技官网

  还有一个细节,Rokid Max 的入眼亮度来到了 400 nits,峰值 600 nits,这得益于索尼更高规格的 Micro OLED 微显屏,还是以小面积 eyebox 光学设计来实现的?AR 观影眼镜大多相对静态、私密的场景,是否真的需要很高的入眼亮度,值得仔细推敲。雷鸟眼镜似乎只有 200nits-400nits 入眼亮度,差一截,但 eyebox 做的很大,Nreal 入眼亮度在 400nits 左右,eyebox 大小介于雷鸟和 Rokid Air 之间。而 Nreal 和雷鸟两家现在在争销量第一了。

  产品上舍本逐末是有意或无心,我无法鉴别。Rokid to AI、to B、to C 还是 to VC,只感觉到了一点极客和现实之间的拉扯。经历了乔布斯式的产品月石被几十块的百度廉价智能音箱冲垮,公司几乎推倒重来般的大裁员,转型 AR to B 再到 to C,从没有做过底层员工的 Rokid CEO,似乎依然「不忘初心」。

  融到钱,活下去,讲好故事,等待春暖花开。

  至于产品,先把概念做出来而不是出货量做上来,也许才是 Rokid 目前真正考虑的紧要事情。

  后话

  AR 有潜力成为 time killer 设备,因为日常眼镜佩戴,看到周边环境,随时随地进行视觉增强和虚实交互,信息提示、学习、工作、娱乐,使用高频,场景不限。

  AR 在消费市场普及关键在虚实交互和光学显示,依赖传感器、算力、更小体积的高透光高亮度光学设计,特别是眼球追踪、手势识别、SLAM 功能的传感器。SLAM 能否做到高精度,眼球追踪能否低功耗低延时快速画面渲染,手势识别能否做到空中打字的程度,还有整个体积、续航、能耗的限制,单拎出来一项其实可以做好,但 AR 难就在任何这其中任何一项关键技术都不能有短板。

  AR 还是要等硬件技术的成熟,其实大家普遍吐槽的内容和应用没什么好担心,硬件做好了一定会最快速度普及,至于时间点,几项关键技术这几年进步很快,可能 2025-2027 年初步成熟的硬件可能就出来了。

  希望一直都在。