18岁华人开源成果,火爆具身智能赛道

  henry 发自凹非寺

  量子位 | 公众号 QbitAI

  具身智能的 Scaling Law 正蓄势待发。

  最近,有史以来最大的人类为中心(huamn-centric)数据集 Egocentric-10K 开源了——10 亿帧画面,来自 2153 个人类工人在真实工厂中共计小时的工作。

  其规模是同类数据集 EPIC-KITCHENS 的100 倍,并且将数据场景从家庭扩展至真正的工厂车间,是首个完全在真实工厂中收集的数据集。

  发布不到三天,Egocentric-10K 在 Hugging Face 的下载量就突破了1. 3w次,并登顶趋势榜。

  网友纷纷点赞,直呼太强了!

  而这,竟出自一名 18 岁的连续创业者之手。

  押注人类数据路线

  Egocentric-10K 是华人小哥 Eddy Xu 的初创公司 Build AI 最新发布的具身智能数据集,Build AI 官方称其为最大的开源的“物理作业”数据集(largest open source dataset of physical jobs)。

  如开头所说,这是第一个完全从真实工厂中收集的 huamn- centric 数据集,包含 10 亿帧画面,来自 2153 个工人共计一万小时的工作,总视频片段达到了 19.2 万个,数据集大小达到了 16.4TB。

  相比 Ego4DEPIC-KITCHENS 等以往的 huamn-centric 数据集,Egocentric-10K 不仅在数量规模上更大,而且在数据收集场景中,也由日常家庭、厨房场景扩展至了真实工厂的操作。

  这使 Egocentric-10K 在手部可见性和主动操作密度方面达到了领先水平。

  在数据收集上,Egocentric-10K 的操作视频数据来自全球各地的真实工厂,由工人佩戴头戴式摄像设备在抓取、组装等操作中自然录制。

  其中,头戴式摄像头能够收集 128°×67°、1080p、30fps 的视频数据,相比许多旧数据集(720p、60~90° FOV)提升明显。

  不过,Egocentric-10K 数据集中目前仅有 RGB 视频信息,暂时缺乏深度、音频、触觉等多模态信息。

  当有网友表示能否加入更多模态的数据信息时,创始人小哥卖了个关子,表示:该让你知道的时候会让你知道的。

  当然,也并不是那么密不透风。

  据 Build AI 官网的最新介绍,其将在位于深圳的制造工厂计划于 2026 年生产数百万副记录眼镜,以实现全球覆盖,届时也许会覆盖更多的模态信息。

  此外,也有网友对大规模数据的实际可用性提出质疑,例如工厂场景下的数据是否具备足够多样性、人类的实操经验又该如何有效迁移至机器人系统等核心问题。

  而这,就引出了 human-centric 与真机、遥操等技术路线的差异。

  与前段时间Generalist AI发布的史上最大真机数据集不同,此次Egocentric-10K主打human-centric方向,对标FigureProject Go-Big项目,核心在于强调人类数据向机器人的迁移价值。

  在这一赛道上,特斯拉与国内的它石智航等玩家也均以 human-centric 为核心布局,试图通过大规模第一视角的人类操作数据,让机器人学习到更灵巧、更符合直觉的 manipulation 技能。

  相比真机,human-centric 的显著优势在于:真机数据昂贵而稀缺,而人类数据在现阶段可以以更低成本、更高速度扩展规模。

  但代价也同样清晰:必须跨越 human-to-robot dynamics gap——人手与机械臂之间在关节、动力学、传感模式上的系统性差异。

  最终,哪条路线更能抵达通用机器人智能的“临界点”,仍需要时间与数据规模去验证。

  18 岁的创业老兵

  说到 Egocentric-10K,就不得不提到它背后的男孩——Eddy Xu

  这位小哥今年刚满 18,半年前从哥大主动辍学,放弃了超过 2500 万美元的股权投资,转身 all in AI 创业,创办了 Build AI,而 Egocentric-10K 正是他最新的旗舰项目。

  Build AI 主打可扩展、具有经济价值的 human- centric 数据集构建,强调从“量”上突破。

  而这,并不是他的第一次尝试创业。

  大半年前,他设计了一副智能眼镜,可以将现场国际象棋比赛流式传输到 Instagram,使用 Stockfish 引擎通过计算机分析比赛,并通过内置扬声器低声说出最佳棋步。

  虽然这副眼镜因有作弊嫌疑而被批评质疑,但也确实让小哥火了一把。

  而他最出圈的作品,当属 AI 流量预测工具CrowdTest

  简单来说,CrowdTest 通过套壳大模型,模拟成千上万名用户对即将发布的推文可能产生的反应(A/B测试),从而对流量进行预测。

  虽然没有免费试用,而且而且订阅价高达 1000 美元/月,但仍挡不住用户的热情,上线 5 小时后收入就突破了 1 万美金。

  有趣的是,Eddy 表示,如果使用后 24 小时内没有效果增长,不仅可以退款,还能得到他本人直接售后支持。

  这一手营销,也让 CrowdTest 在 24 小时内的总收入突破了 3 万美元。

  除上述尝试以外,还有消息称,小哥在 13 岁就在地下车库开了第一家公司。

  • 赢过 20 万名参赛者的十项全能商业世界锦标赛冠军。
  • 还曾多次创业,并曾在三个月内出售了一家拥有 17.8 万用户的教育科技初创公司

  只能说,刚满 18 岁,就俨然一名创业老兵。

  [1]https://huggingface.co/datasets/builddotai/Egocentric-10K

  [2]https://x.com/eddybuild/status/1987951621536641332

  [3]https://www.linkedin.com/in/edwardxu1569/

  [4]https://build.ai/

  — 完 —

  量子位 QbitAI · 头条号签约

  关注我们,第一时间获知前沿科技动态