机器人上春晚了,跑马拉松了,在发布会上翻跟头了。
但如果你让它自己叠一件衣服,它大概率会把衬衫揉成一团——然后卡住不动。
让机器人真正"自主行动",而不是照着写好的剧本演戏,至今仍然是全球机器人实验室最头疼的事情之一。不过今这个月初,英伟达机器人领军人 Jim Fan(范麟熙),在演讲中提到,现在让机器人自主行动的终局之战,已经来了。

他说,机器人正在经历一个"Great Parallel"——也就是复刻大语言模型的进化路线。GPT 从海量文本中学会语言,机器人也可以从海量视频中学会动作。关键就在于一种叫做"Ego Data"的东西——人类第一视角数据。

过去几年,教机器人干活的主流方法是遥操作:一个人远程操控机器人做动作,机器人照着学。听起来很直觉,但问题在于,即使一台机器人 24 小时不停地采,一年也就产出几千小时的数据。这还是理想情况下,事实上,一天能采集 5 个小时数据,已属不易了。

Jim Fan 在演讲中甚至给遥操作"默哀了一分钟",说这种方式,根本无法满足训练的需求。
而英伟达的 EgoScale 项目证明了另一条路:用超过 2 万小时的 Ego 数据(人类第一视角)做预训练,不需要任何机器人参与,就能让机器人学会组装模型车、分类扑克牌、折叠衬衫。更关键的是,研究团队发现了一条清晰的 Scaling Law——人类视频数据越多,机器人的操作能力就越强。

只不过和 GPT 一样,这条技术路径需要的数据也非常庞大。2 万小时是做研究用的量级。而真正训练一个通用具身大模型,行业测算至少需要 1000 万小时的真实场景数据。目前全球高质量实操数据加起来不过几十万小时,缺口超过 95%。
正因如此,目前全球科技巨头都在疯抢这种数据。Meta 在发布了 3670 小时的 Ego4D 数据集,今年 4 月 Build AI 更是一口气放出了 100 万小时的 Egocentric-1M,Georgia Tech、斯坦福、MIT 和 Meta 联合推出的 EgoVerse,甚至已经开始用 iPhone 做标准化采集。一场围绕人类第一视角数据的军备竞赛,已经全面打响。
而在国内,在 Ego 数据采集这条赛道上,跑得最快的是京东。

2026 年 4 月 16 日,京东在具身智能生态发布会上宣布,全球首推覆盖"采、存、标、训、评、仿、测"全链路的具身智能数据基础设施,并放出了一个惊人的目标:不仅将建成全球最大的具身智能数据采集中心,然后两年内采集 1000 万小时人类真实场景数据,外加 100 万小时机器人本体数据。
Ego 数据到底如何采集?
前两天,我们去到了坐落在宿迁的京东机器人数据采集中心,看看要完成 1000 万小时的数据采集,京东到底在怎么干这件事。

走进基地,第一个看到的就是京东自研的 JoyEgoCam 采集终端。

这是一个头戴式设备,双目 4K/60fps,重投影误差小于 0.2 个像素,整机只有 220 克,大概就是一部手机的重量。并且还内置了 IMU 和推理单元,在各种环境下都能做到毫米级精准采集。
我自己也上手戴了一下。说实话,比想象中要轻,戴上之后几乎没有什么负担感,正常做动作完全不受影响。

基地里面搭建了各种各样的场景,走一圈下来像逛了一个微缩版的真实世界。商超的货架区,采集员在反复码放货品;药店区域还原了真实的药房柜台,采集员在做药品分拣和上架的动作。

家政区域更是细致,擦桌子、叠衣服、整理收纳、地面清洁,每一个动作都有人反复在做。到处都能看到戴着 JoyEgoCam 工作人员的忙碌身影。

不只是 Ego 数据。基地里也有专门的遥操作数据采集区域,工作人员通过远程操控机器人完成特定任务,两种数据路线并行推进。

正因为 JoyEgoCam 够轻、够便携,它可以基地搭建的场景,直接进入到真实的生活的场景里。
比如京东和宿迁政府合作,把采集直接铺进了社区——全职妈妈、退休人员、大学生,戴上设备在自己家里就可以采集。

擦桌子、叠衣服、打扫卫生,设备自动记录上肢轨迹、人与环境的交互关系。时间完全自由,一天 2 到 6 个小时,一周五天,多劳多得。说白了:你在家把家务干了,顺便就把钱赚了。

相较于家政,进入到的养老院的采集更值得关注。
以宿迁老年医院为例,在职护工数量不够,并且基本上都是 50 岁左右的中年人。对于年轻人来讲,护工这份工作认可度低,又苦又累,没人愿意来。医院曾经向 20 多个持证年轻人发出实习邀请,最终只有 1 个人愿意来。
而现在,护工戴着 JoyEgoCam 工作,协助老人起身、喂药、康复训练的动作被完整记录,这些数据将成为养老机器人的训练数据。

将来,机器人能在搀扶、搬运这些场景上部分铺开,把最辛苦的体力活分担掉,对养老行业就是巨大的帮助。这对日益加速的老龄化社会是刚需。
从社区到养老院,看得出来,京东正逐渐把 Ego 数据采集扩展到各行各业的实际场景中去,构建起一套覆盖全场景的数据集。

不只是采集
采集只是第一步,在基地,采集过后的数据依次经历存储、标注、训练、评测、仿真、测试等一系列处理,才能进入到可训练的高质量数据集。

京东云的 AI 数据湖和 JoyBuilder 平台承担了这部分工作——作为行业首家支持千卡级 LeRobot 开源训练框架的 AI 开发平台,训练效率比开源社区版本提升 3.5 倍,千卡训练时间从 15 小时缩短到 22 分钟,提速 40 倍。

京东还有自己的具身大模型 JoyAI-RA,以自采数据为核心进行训练,在真机实验中成功率达到了 73.5%,超过了 pi0.5 等此前的 SOTA 模型。
模型反过来又指导数据采集策略的优化,形成了"数据喂模型、模型优化数据"的飞轮——采的数据越多,模型越强;模型越强,对数据质量的把控越精准,采集效率也跟着提高。

在全链路上,京东不仅打造数据采集全链路技术栈,还上线了数据交易平台。
首批 2000 小时高精标注数据集已定向开放,几十家企业和高校在对接。数据流向三个方向:京东自用训练模型、通过交易平台赋能产业界、定向开放给高校和科研机构推动前沿研究。合规方面,入家采集需签授权协议,数据传输全程加密,权限管控在云平台上执行,交易环节与监管机构做了沟通和备案。

所以京东做的不是一个单点的采集项目,而是一整套从数据采集到模型训练再到数据交易的基础设施。它给整个具身智能行业提供最底层的"燃料"。
具身智能的下半场,正在到来
回过头来看整个具身智能行业,有一个很形象的说法:机器人的"小脑"已经逐渐发育完全了——走、跑、跳、翻跟头,但想进入人类生活,靠的是"大脑"。
现在的机器人擅长基础运动,却无法完成叠衣服、擦桌子、分拣药品这些对人类来说再简单不过的日常操作,整个产业还停留在"炫技"阶段。要让机器人从"会动"进化到"会干活",关键不在硬件,而在数据。

机器人"小脑发达、大脑不足",擅长跑跳等基础动作,却无法完成家务、精细操作等实用任务。整个产业还停留在"炫技"阶段。
大脑的发育靠什么?靠数据。这就是京东做这件事的底层逻辑。他们的目标很明确:两年内积累 1000 万小时人类真实场景视频数据,外加 100 万小时机器人本体数据。
为此,京东计划发动多达 60 万人参与采集——内部 10 万员工,加上外部 50 万各行业人员,仅在宿迁一地就要动员超过 10 万市民。京东自身 3600 多个仓库、20 万家合作药房、1 万多家线下门店、5 万多名保洁师,每年服务近千万个家庭,覆盖 3000 多个业务场景——这些真实场景本身就是天然的数据富矿。

过去几年,AI 的主战场在数字世界——写文章、画图、写代码,一切都发生在屏幕里。而未来,AI 的主战场将转移到物理世界。或许正是基于这样的判断,5 月 18 日的京东 618 启动会上,京东集团技术委员会主席曹鹏明确提出,京东将打造全球最大物理世界运营中心,推动 AI 从千行百业走进千家万户。

说白了,AI 要从屏幕里走出来,光会写文章画图不够,它得学会在真实世界里干活。而干活这件事,没有捷径,就是得看够足够多的人类操作——怎么擦桌子,怎么扶老人,怎么摘果子。这些数据不可能在实验室里编出来,只能从真实的生活里一帧一帧地采。
机器人的 Scaling Law 找到了,方向明确了,剩下就是一个字:喂。谁能最快喂够数据,谁的机器人就先聪明起来。京东的做法简单直接——发动 60 万人,在真实生活里给机器人当老师。
当 60 万人的生活经验都变成了数据,Jim Fan 说的那场终局之战,才算真正开始。
