中国具身模型狂揽全球第一!机器人的人类数据时代来了

  鹭羽发自凹非寺

  量子位 | 公众号 QbitAI

  还得是这届 00 后,强得可怕!一出手,具身智能就被“整顿”得底朝天。

  当别人还在 Sim2Real 打转时,这支 00 后带队的灵初智能,已经开始用近 10 万小时人类数据暴力拆解。

  这个数字就是放到整个行业里看,也是遥遥领先。

  毕竟目前人类操作数据集大多还都集中在几千到几万小时量级,最大的也不过是英伟达的 EgoScale,包含 2 万小时人类第一视角视频数据。

  灵初这次直接上了个新台阶,10 万+数据,其中 1000 小时还开源。

  视频链接:https://mp.weixin.qq.com/s/Dfj0Z1JiMoTjzSCBassL2Q

  而且发布形式也够潮——直播 show time~

  AI 博主弗兰克和灵初智能的 00 后联合创始人陈源培,直接手把手给你剖析的那种。(techblog 指路:

  https://www.psibot.ai/from-human-skill-to-robotic-mastery/)

  言而总之,整场直播我们复盘下来,就讲两件事:给具身智能喂什么吃、让具身智能长什么样的脑子。

  说人话就是,灵初给的,是一条与众不同的务实路径——

  不整虚的,直接对齐人类数据,再用Psi-R2Psi-W0双系统架构平稳落地具体场景。

  结果也很直观,灵初 Psi-R2 迅速登顶 MolmoSpace 榜单

  MolmoSpace 由美国艾伦人工智能研究所(AllenAI)发起,是全球具身智能领域权威基准评测平台,NVIDIA、PI 等全球顶尖团队均参与本次评测。

  而灵初 Psi-R2 在评测中一举超越 PI、DreamZero 等国际知名模型,表现也显著优于其他基线模型,妥妥的行业第一梯队。

  在成功率这块,也比同类 VLA 模型要高出近 10 倍。

  情况就是这么个情况,灵初一来就整了个大活,具身智能终于迎来首个直接能用的大规模人类手部操作全模态数据集。

  下面就让我们回到直播间现场,一一复盘拆解。

  10 万小时,让具身智能吃个顶饱

  “为啥偏偏具身智能会数据荒?”弗兰克化身观众嘴替,率先给出这句经典灵魂拷问。

  要回答这个问题,首先需要厘清一点,具身智能和自动驾驶、大语言模型这些 AI 领域存在原生的数据差异。

  后者基于现实场景和互联网,长期积累沉淀形成了海量存量数据,然后通过简单粗暴的算力 Scaling law 就能实现性能稳步提升。

  但具身智能则截然不同,物理世界复杂的情况让它几乎没有可用的成熟数据集,也很难像互联网产品那样边用边攒数据。

  可以说,影响具身智能发展的关键之一就是数据卡脖子。

  那咋办呢?以灵初在内的具身智能公司纷纷将目光投向人类数据

  仿真数据还需要迁移处理,才能在真实机器人上使用,但人类数据就是最优秀的参考对象,数据量大而且质量高。

  但事实上,这里也同样存在一个无法忽视的问题:人类和机器人之间存在本体差异(embodiment gap)。

  直接复用显然不行,机器人必定会出现运动学结构、动力学特性不匹配种种问题。

  其次,现有的人类数据要直接给到预训练,也是万万不行的。因为要么都是些小规模开源数据,要么就是网络上一些低质量的第一人称视频。

  但除去人类数据,也几乎没有其它更好的路径可走。灵初给出的判断是:

具身智能要想面向真实商业化场景落地,纯人类数据训练是必要的。

  一方面,使用人类数据能够让机器人抢先学习到人类一线的标准作业流程(SOP),而这些都是得到商业实际验证过的,即拿即用且行之有效。

  换言之,真实场景的无缝衔接能够将数据成本降至最低,比如人类的触觉数据收集成本,就仅为机器人的1/10 以下。

  另一方面,人类数据的 SOP 也可以使操作速度达到机械臂物理运动上限(如 1200),远超遥操作可达的 800,也更适配商业工厂的高节拍要求。

  所以灵初最终选择了人类数据,并造出了首个可用于预训练的大规模人类操作数据集。

  其中,在人类数据和机器人数据的融合处理中,灵初遵循的是一条化繁为简的思路:Raw Data In,Raw Data Out(原生数据进,原生数据出)。

  舍弃人工设计的复杂数据处理,直接进行人类关节与机器人本体的运动学对齐,让模型在海量数据中自行探索。另外,Auto Labeling 也会替代人工进行数据质检和标注,最后再交由人工审核。

  最终模型预训练使用的数据集将包括真机数据(5417 小时)和人类数据(95472 小时)两部分,总计10 万小时数据。

  目前其中 1000 小时已开源,到年底整个数据集还将 Scaling 到百万量级。

  具体来讲,人类数据包括灵初自研外骨骼手套采集数据与裸手操作数据,覆盖 294 种场景、4821 种任务与 1382 种物体。

  至于为什么要强调触觉数据呢?归根结底,还是为了更好地弥补人机之间的 embodiment gap。

  虽然人类与机器人在多个方面差异明显,但二者在接触信号上却保持了惊人的高度一致,能够有效补偿动力学差异,以及在显著提升世界模型能力的同时,还能更好地预测机器人与物体之间的交互情况。

  这样一整套高质量数据预训练下来,机器人的泛化能力、长流程操作能力和操作精度都会有所突破,后续也仅仅只需要不到 100 条轨迹的真机数据就能完成微调。

  另外值得关注的是,灵初在此期间,还发现了另一处华点:

数据信噪比才是决定人类数据能否有效支撑预训练的核心因素。低信噪比的数据甚至还会起到反作用。

  如果要想判断数据信噪比,可以从两方面看:

  1、数据集分布:操作任务多样性>物体多样性>>场景多样性。

  泛化能力其实是模型最难学会的能力之一,但如果在预训练阶段可以见到更多任务和操作对象,自然而然模型接手新任务速度就越快。

  2、感知模态:精准 3D 位姿>>触觉模态>2D 图像特征。

  在全模态信息中,人手全域 3D 位姿追踪是 2D 到 3D 模型转化的关键,也和机器人动力学特性匹配度最高。

  简单来说,灵初认为无论是精准采集的可复现数据,还是舍弃部分精度的粗糙泛化数据,都缺一不可。

  二者相互补充,既保证模型精度又确保泛化。

  具身智能长出双系统新脑

  所以基于以上认知,灵初全新发布 Psi 双系统架构——Psi-R2Psi-W0

  先看Psi-R2,这是一款能让机器人学习人类做事的模型,核心就是靠这 10 万+的海量数据,学会精细操作。

  图像和语言指令将作为输入,输出预测的未来操作视频和可执行动作,所以 Psi-R2 可以称之为世界行动模型(WAM)。

  其中训练骨干网络选用 Wan2.2-IT2V-5B-480P,预训练阶段同步使用真机数据和人类数据,还搭建了一套完整的数据处理流程,从数据清洗、自动标注,到质量检测、人工核对,Psi-W0 还会帮忙检查数据质量。

  同时,采用专门技术精准捕捉人类手部动作轨迹,比如通过外骨骼手套,将动作误差控制在亚毫米级,以确保人类的操作细节能被机器人精准模仿。

  视频链接:https://www.psibot.ai/from-human-skill-to-robotic-

  但 WAM 模型架构普遍存在一个 bug——反应慢。单次推理要 2.2 秒,反映到机器人身上,就是明显的卡顿。

  于是灵初通过 DiT 缓存、Torch 编译、模型量化等多项技术优化,把反应时间极限压缩到了 100 毫秒以内。

  再看 Psi-W0,它和 Psi-R2 的基础架构相似,但分工完全不同。Psi-R2 是学习怎么做,Psi-W0 是协助做得更好。

  首先它和 Psi-R2 一样,都是基于预训练视频生成模型构建的,但在 Psi-W0 里,机器人动作是输入,输出的是对未来场景视频的预测,所以 Psi-W0 也被定义为动作条件型世界模型(AC-WM)。

  这里就引出了另一个问题:Psi-R2 也能输出预测,那为什么还要做 Psi-W0?

  答案很简单,为了反事实推理。Psi-R2 学到的只有成功的操作,比如成功抓起苹果,但没有办法预测到苹果抓不稳这类失败情况。

  但老话说得好,失败是成功之母,机器人亦是如此。失败经验能够帮助机器人避开错误、优化动作,Psi-W0 就是专门负责填补这部分空白。

  具体来讲,两个模型的训练骨干和数据格式都是一致的,只是在 Psi-W0 的训练数据中额外加入了 30% 的失败样本。

  视频链接:https://www.psibot.ai/from-human-skill-to-robotic-

  显然,Psi-R2 和 Psi-W0 并非孤立存在,而是彼此之间协同配合。当 Psi-R2 学完人类操作后,Psi-W0 就会模拟人类操作场景,让 Psi-R2 再演练一遍,也就是进行策略评估,检查它有没有学漏学歪。

  Psi-W0 还有一项核心功能,是通过强化学习将人类数据转换为机器人数据。

  传统方法中,数据转换靠的是仿真环境调整,不仅复杂而且准确性不高。但用 Psi-W0 替代后,它就会模拟机器人视角和动作模式,再通过强化学习的试错调优,将人类动作调整为机器人能精准执行的动作。

  更厉害的是,在这个过程中还能持续生成新的优质数据,当把这些数据反向喂给 Psi-R2 和 Psi-W0 继续学习,就能构成闭环数据飞轮

  当然也可以故意给 Psi-W0 进行随机扰动以模拟部分特殊场景,然后再生成目标场景和训练数据。

  高质量数据滋养模型高性能,模型场景落地反哺数据扩充。于是自然而然,轮子飞起来了。

  最终整套系统能够实现长程任务自主规划、任务自主恢复和适配多场景复杂任务。

  开源是最高效的落地杠杆

  回看整场直播,无论是弗兰克还是陈源培聊的内容,其实贯穿技术始终的都是同一个关键词——落地

  弗兰克站在观众角度,好奇什么时候具身智能才能落地。陈源培则站在厂商视角,给出了灵初智能的落地方案:

  技术端,从大规模的真实人类数据采集,再到实际应用中的具身模型,无一不是从切实的落地场景中出发构建。

  应用端,灵初智能也同时宣布要和北京石景山共建数采厂,以及和腾讯云、抖音、觅蜂、智域基石达成生态合作。

  不难看出,灵初这家公司从诞生之初的 DNA 就是聚焦技术落地、提供通用全栈技术。它的每一步都在验证一个行业共识:

  具身智能从诞生之初就锚定的终点,绝非实验室,而是每一个具体可感的复杂场景。而这恰恰才是检验具身智能的标准所在。

  在通往落地的过程中,灵初也率先意识到,单打独斗并非最优解,开源是必要的。

  对于它们自身而言,只有开源,才能让全行业帮助他们快速采集海量数据,才能弥补上这套数据飞轮体系中的关键一环。

  而且 AI 时代,时间和数据就是最稀缺的黄金资源。越早进场、拥有越多数据,就能抢先收获长尾效益。

  再放眼整个行业,开源不仅是情怀,也是打破技术封闭孤岛的钥匙。它能够建立起广袤的开发者生态,通过标准化的数据管线和预训练底座,让具身智能不再是孤立的厂商个体。

  而全行业开源共建,还能反向喂养灵初这类硬核玩家,让他们集中精力攻坚最难的技术瓶颈。集众智,才是具身智能跑赢节拍、实现商业落地的唯一捷径。

  而灵初无疑是当中走得最快最稳的一位明星选手。

  最后化用一句老话,用来描述我眼中的灵初智能——有仰望星空的勇气,亦有脚踏实地的努力。

  具身智能正在因这场青春风暴而面目一新。