国思软件 - 全球大厂不仅抢芯片，也开始抢你叠衣服的视频了

　　机器人上春晚了，跑马拉松了，在发布会上翻跟头了。

　　但如果你让它自己叠一件衣服，它大概率会把衬衫揉成一团——然后卡住不动。

　　让机器人真正"自主行动"，而不是照着写好的剧本演戏，至今仍然是全球机器人实验室最头疼的事情之一。不过今这个月初，英伟达机器人领军人 Jim Fan（范麟熙），在演讲中提到，现在让机器人自主行动的终局之战，已经来了。

　　他说，机器人正在经历一个"Great Parallel"——也就是复刻大语言模型的进化路线。GPT 从海量文本中学会语言，机器人也可以从海量视频中学会动作。关键就在于一种叫做"Ego Data"的东西——人类第一视角数据。

　　过去几年，教机器人干活的主流方法是遥操作：一个人远程操控机器人做动作，机器人照着学。听起来很直觉，但问题在于，即使一台机器人 24 小时不停地采，一年也就产出几千小时的数据。这还是理想情况下，事实上，一天能采集 5 个小时数据，已属不易了。

　　Jim Fan 在演讲中甚至给遥操作"默哀了一分钟"，说这种方式，根本无法满足训练的需求。

　　而英伟达的 EgoScale 项目证明了另一条路：用超过 2 万小时的 Ego 数据（人类第一视角）做预训练，不需要任何机器人参与，就能让机器人学会组装模型车、分类扑克牌、折叠衬衫。更关键的是，研究团队发现了一条清晰的 Scaling Law——人类视频数据越多，机器人的操作能力就越强。

　　只不过和 GPT 一样，这条技术路径需要的数据也非常庞大。2 万小时是做研究用的量级。而真正训练一个通用具身大模型，行业测算至少需要 1000 万小时的真实场景数据。目前全球高质量实操数据加起来不过几十万小时，缺口超过 95%。

　　正因如此，目前全球科技巨头都在疯抢这种数据。Meta 在发布了 3670 小时的 Ego4D 数据集，今年 4 月 Build AI 更是一口气放出了 100 万小时的 Egocentric-1M，Georgia Tech、斯坦福、MIT 和 Meta 联合推出的 EgoVerse，甚至已经开始用 iPhone 做标准化采集。一场围绕人类第一视角数据的军备竞赛，已经全面打响。

　　而在国内，在 Ego 数据采集这条赛道上，跑得最快的是京东。

　　2026 年 4 月 16 日，京东在具身智能生态发布会上宣布，全球首推覆盖"采、存、标、训、评、仿、测"全链路的具身智能数据基础设施，并放出了一个惊人的目标：不仅将建成全球最大的具身智能数据采集中心，然后两年内采集 1000 万小时人类真实场景数据，外加 100 万小时机器人本体数据。

　　Ego 数据到底如何采集？

　　前两天，我们去到了坐落在宿迁的京东机器人数据采集中心，看看要完成 1000 万小时的数据采集，京东到底在怎么干这件事。

　　走进基地，第一个看到的就是京东自研的 JoyEgoCam 采集终端。

　　这是一个头戴式设备，双目 4K/60fps，重投影误差小于 0.2 个像素，整机只有 220 克，大概就是一部手机的重量。并且还内置了 IMU 和推理单元，在各种环境下都能做到毫米级精准采集。

　　我自己也上手戴了一下。说实话，比想象中要轻，戴上之后几乎没有什么负担感，正常做动作完全不受影响。

　　基地里面搭建了各种各样的场景，走一圈下来像逛了一个微缩版的真实世界。商超的货架区，采集员在反复码放货品；药店区域还原了真实的药房柜台，采集员在做药品分拣和上架的动作。

　　家政区域更是细致，擦桌子、叠衣服、整理收纳、地面清洁，每一个动作都有人反复在做。到处都能看到戴着 JoyEgoCam 工作人员的忙碌身影。

　　不只是 Ego 数据。基地里也有专门的遥操作数据采集区域，工作人员通过远程操控机器人完成特定任务，两种数据路线并行推进。

　　正因为 JoyEgoCam 够轻、够便携，它可以基地搭建的场景，直接进入到真实的生活的场景里。

　　比如京东和宿迁政府合作，把采集直接铺进了社区——全职妈妈、退休人员、大学生，戴上设备在自己家里就可以采集。

　　擦桌子、叠衣服、打扫卫生，设备自动记录上肢轨迹、人与环境的交互关系。时间完全自由，一天 2 到 6 个小时，一周五天，多劳多得。说白了：你在家把家务干了，顺便就把钱赚了。

　　相较于家政，进入到的养老院的采集更值得关注。

　　以宿迁老年医院为例，在职护工数量不够，并且基本上都是 50 岁左右的中年人。对于年轻人来讲，护工这份工作认可度低，又苦又累，没人愿意来。医院曾经向 20 多个持证年轻人发出实习邀请，最终只有 1 个人愿意来。

　　而现在，护工戴着 JoyEgoCam 工作，协助老人起身、喂药、康复训练的动作被完整记录，这些数据将成为养老机器人的训练数据。

　　将来，机器人能在搀扶、搬运这些场景上部分铺开，把最辛苦的体力活分担掉，对养老行业就是巨大的帮助。这对日益加速的老龄化社会是刚需。

　　从社区到养老院，看得出来，京东正逐渐把 Ego 数据采集扩展到各行各业的实际场景中去，构建起一套覆盖全场景的数据集。

　　不只是采集

　　采集只是第一步，在基地，采集过后的数据依次经历存储、标注、训练、评测、仿真、测试等一系列处理，才能进入到可训练的高质量数据集。

　　京东云的 AI 数据湖和 JoyBuilder 平台承担了这部分工作——作为行业首家支持千卡级 LeRobot 开源训练框架的 AI 开发平台，训练效率比开源社区版本提升 3.5 倍，千卡训练时间从 15 小时缩短到 22 分钟，提速 40 倍。

　　京东还有自己的具身大模型 JoyAI-RA，以自采数据为核心进行训练，在真机实验中成功率达到了 73.5%，超过了 pi0.5 等此前的 SOTA 模型。

　　模型反过来又指导数据采集策略的优化，形成了"数据喂模型、模型优化数据"的飞轮——采的数据越多，模型越强；模型越强，对数据质量的把控越精准，采集效率也跟着提高。

　　在全链路上，京东不仅打造数据采集全链路技术栈，还上线了数据交易平台。

　　首批 2000 小时高精标注数据集已定向开放，几十家企业和高校在对接。数据流向三个方向：京东自用训练模型、通过交易平台赋能产业界、定向开放给高校和科研机构推动前沿研究。合规方面，入家采集需签授权协议，数据传输全程加密，权限管控在云平台上执行，交易环节与监管机构做了沟通和备案。

　　所以京东做的不是一个单点的采集项目，而是一整套从数据采集到模型训练再到数据交易的基础设施。它给整个具身智能行业提供最底层的"燃料"。

　　具身智能的下半场，正在到来

　　回过头来看整个具身智能行业，有一个很形象的说法：机器人的"小脑"已经逐渐发育完全了——走、跑、跳、翻跟头，但想进入人类生活，靠的是"大脑"。

　　现在的机器人擅长基础运动，却无法完成叠衣服、擦桌子、分拣药品这些对人类来说再简单不过的日常操作，整个产业还停留在"炫技"阶段。要让机器人从"会动"进化到"会干活"，关键不在硬件，而在数据。

　　机器人"小脑发达、大脑不足"，擅长跑跳等基础动作，却无法完成家务、精细操作等实用任务。整个产业还停留在"炫技"阶段。

　　大脑的发育靠什么？靠数据。这就是京东做这件事的底层逻辑。他们的目标很明确：两年内积累 1000 万小时人类真实场景视频数据，外加 100 万小时机器人本体数据。

　　为此，京东计划发动多达 60 万人参与采集——内部 10 万员工，加上外部 50 万各行业人员，仅在宿迁一地就要动员超过 10 万市民。京东自身 3600 多个仓库、20 万家合作药房、1 万多家线下门店、5 万多名保洁师，每年服务近千万个家庭，覆盖 3000 多个业务场景——这些真实场景本身就是天然的数据富矿。

　　过去几年，AI 的主战场在数字世界——写文章、画图、写代码，一切都发生在屏幕里。而未来，AI 的主战场将转移到物理世界。或许正是基于这样的判断，5 月 18 日的京东 618 启动会上，京东集团技术委员会主席曹鹏明确提出，京东将打造全球最大物理世界运营中心，推动 AI 从千行百业走进千家万户。

　　说白了，AI 要从屏幕里走出来，光会写文章画图不够，它得学会在真实世界里干活。而干活这件事，没有捷径，就是得看够足够多的人类操作——怎么擦桌子，怎么扶老人，怎么摘果子。这些数据不可能在实验室里编出来，只能从真实的生活里一帧一帧地采。

　　机器人的 Scaling Law 找到了，方向明确了，剩下就是一个字：喂。谁能最快喂够数据，谁的机器人就先聪明起来。京东的做法简单直接——发动 60 万人，在真实生活里给机器人当老师。

　　当 60 万人的生活经验都变成了数据，Jim Fan 说的那场终局之战，才算真正开始。

全球大厂不仅抢芯片，也开始抢你叠衣服的视频了

我们的产品

相关链接

关于我们

联系我们