戴盟机器人完成亿元融资,阿里多模态大牛加盟攻关物理世界模型

  衡宇发自凹非寺

  量子位 | 公众号 QbitAI

  每天一睁眼,都有滚烫的热钱砸向具身智能领域。今天也不例外。

  量子位获悉,具身智能公司戴盟机器人(Daimon Robotics)新近完成亿元A轮融资,本轮融资由汇川产投和中国电信联合投资。

  这笔融资值得留意,不单是具身智能又拿到了投资。

  关键在于具身智能发展技术方向的取舍。

  因为在视觉、多模态、VLA、世界模型等被行业轮番热议之时,戴盟落脚在了触觉这条路上

  与此同时量子位还获悉了关于这家公司的另一则消息——阿里通义实验室前多模态研究专家原玮浩加入戴盟,担任首席 AI 科学家

  原玮浩博士毕业于香港科技大学,研究工作主要面向具身人工智能(VLA/WAM/强化学习/触觉智能/人形运动)和三维视觉(重建/生成/世界模型),拥有将多模态大模型、世界模型迁移至机器人物理操作的前沿经验。

  他在 NeurIPS、ICLR、CVPR、ICRA 等人工智能顶会上发表论文 40 余篇,包括多篇 Oral 论文。其主导的 NeWCRFs 算法,曾登顶国际权威榜单 KITTI。

  后续发力重点:物理世界模型

  戴盟方面表明,本轮融资到账后主要会投向三件事。

  • 物理世界模型研发;
  • 含物理交互信息的超大规模数据集;
  • 真实场景下的数据飞轮和商业闭环。

  戴盟首席 AI 科学家原玮浩的说法是,这三件事本质上是一件事的三个面,“数据是燃料,物理世界模型是引擎,飞轮决定引擎能不能持续跑起来”。

  其中,物理世界模型会是戴盟后续布局的重中之重,团队招人、加码算力、打磨模型,所有规划全都围着这件事落地。

  戴盟对物理世界模型有着自成一派的定义。

  “我们的物理世界模型,它以多模态接触状态为条件来预测未来。”不同于常规模型只预判画面帧变化,它关注的不只是下一帧画面会变成什么样,还包括下一刻的触觉信号、接触状态,以及这次操作会不会失败、为什么失败、该怎么修。

  原玮浩总结道:“简单来说,视频世界模型在预测画面,我们在预测物理交互。”

  为了实现这件事,戴盟把物理接触拆成两层。

  第一层是认知层,让触觉和视觉、语言、几何等模态在同一表征空间里互相映射。

  比如桌上同时放着一颗葡萄和一颗同样大小的玻璃珠,人不需要真正抓起来,就知道两者不能用同一套策略。

  葡萄要轻,要用指腹包裹;玻璃珠可以更用力,用指尖捏起。

  这背后其实是视觉直接映射成了触觉预判。

  第二层是执行层,有两套机制在同时运行。

  一套是百赫兹级的高频触觉伺服,类似脊髓反射,不经过上层推理,物体刚开始产生滑移趋势的那一刻,补偿动作就已经发出了,新的视觉帧还没产生出来。

  原玮浩说,这种毫秒级的边缘力控,纯视觉模型根本来不及反应。

  另一套是物理世界推理,模型会持续预测未来的接触状态,在失误真正发生之前提前给出修正策略。

  这两套机制分别对应毫秒级反应和接触状态前瞻,在同一个任务里协同工作。

  戴盟方介绍,这是他们相比纯视觉操作模型最重要的结构差异。

  具身触觉派

  “触觉”,是戴盟身上一直以来一个鲜明的标签。

  戴盟介绍自家的技术路线时表示,不能只把触觉看作机器人身上的一个辅助传感器。

  在他们看来,触觉同时贯穿了机器人操作的感知、决策、控制三层,

(触觉)是 Physical AI 理解真实世界的关键入口。

  原玮浩解释道,视觉和语言都是真实物理世界的低维映射,要让机器人真正理解物理世界,必须引入触觉这样的原生物理模态。

  这也是戴盟把触觉放到核心位置的原因。

  物理世界里很多决定成败的信息,只有接触之后才会出现——物体是软是硬,表面是光滑还是粗糙,抓握时正压力和切向力分别是多少,这些信息都很难单靠看稳定推出来。

  “只有加入触觉模态,才能够让语言和视觉真正具有物理意义,才能够让模型真正理解并操作物理世界。”原玮浩表示。

  从行业角度看,这也是当前具身智能路线分化的一个缩影。

  一部分公司继续提高机器人的视觉理解和动作规划能力,一部分公司强化本体、灵巧手和执行器,另一部分公司开始盯上真实接触中的数据缺口。

  戴盟试图补齐机器人和物理世界接触时缺失的那部分信息,属于后者。

  但,触觉路线也有自己的硬成本。

  为触觉 Scaling Law 铺路

  最令人头大的就是数据问题。

  这方面目前主要有两个难点。

  第一是规模化采集。

  触觉数据并非单纯越多越好,更关键的是够不够全。

  让机器人在 1000 种不同材质、不同形状、不同接触方式的物体上各碰 10 次,往往比在同一个杯子上反复抓 1 万次更有价值——因为模型要学到的是物理规律,而不是某个单一物体的操作记忆。

  第二是多模态对齐。

  机器人手指碰到物体的那一刻,触觉传感器要记录压力分布和纹理信息,摄像头要记录画面,控制系统要记录关节角度和力矩。

  这些数据必须在毫秒级时间尺度上严格同步,否则模型学到的因果关系就可能是错的。

  举个例子,比如明明是手腕先动导致物体形变,模型却误以为是物体先发生了变化。

  为了解决这件事,戴盟搭建了外发式数据采集网络,把标准化采集模组部署到产业合作方场景里,让真实操作场景成为数据来源。

  今年 4 月,戴盟联合 Google DeepMind 等全球数十家机构发布 Daimon-Infinity,官方称这是全球规模最大的含触觉全模态具身数据集。

  此外,原玮浩还告诉我们,虽然今天触觉 Scaling Law 的曲线还没人真正画出来,但戴盟相信它是存在的。

  之所以还没涌现,很大部分原因是行业还没有形成公认的评估标准。

  为此戴盟有所动作。

  近日,戴盟与银河通用联合发布 RobOmni,这是行业里首个同时支持真实数据训练和仿真训练的含触觉全模态物理交互评测基准。

  先有公认的标尺,谈 Scaling 才有意义。