全球首个机器人训练楼盘开盘:30万套中国住宅,机器人拎包入住

  henry 发自凹非寺

  量子位 | 公众号 QbitAI  

  什么?

  一觉睡醒,具身智能公司竟然也开始搞房地产了?!

  刚刚,大晓机器人联合港中文 MMLab 发布了一个新项目——

  Kairos-Homeworld,全球首个实现全屋三维生成与物体级全交互的统一框架。

  它干了一件颇有点“房地产商”味道的事:第一次把 30 万套中国真实住宅户型,搬进了数字世界。

  不过可千万别误会。

  Kairos-Homeworld 不是给「找房 APP」看房的,而是给「具身智能机器人」训练的仿真环境。

  从 30 平米一居室到 200 平米大平层,从南北通透到封闭式厨房,从干湿分离卫生间到独立生活阳台,统统变成了机器人用来训练的 3D 仿真环境。

  更有意思的是,Kairos-Homeworld 并不单纯是一个数据集,它还是一个能够自动“盖房子”的模拟器。

  只消一句话,系统就能自动生成完整的中国家庭仿真环境,并支持机器人开展导航、多房间整理以及各类家务任务训练。

  而且,场景中的每件物体都不只是摆设。

  材质、密度、摩擦系数等物理属性都被完整建模,机器人可以直接对它们进行抓取、移动和操作,获得更接近真实世界的交互体验。

  事实上,这还不是大晓最近唯一一项与具身智能相关的工作。

  就在不久前,他们刚开源了 4B 参数的世界模型Kairos 3.0-4B

  如果说 Kairos-Homeworld 是在给机器人建造训练场,那么 Kairos 3.0-4B 做的,则是给机器人装上理解这个世界的大脑。

  一前一后两项工作,分别对应了具身智能最核心的两块拼图:环境和模型,训练场和大脑。

  接下来,我们一件件来看。

  Kairos-Homeworld:给机器人盖 30 万套训练场

  先说这个给机器人造“家”(训练场)的事儿。

  如果说大模型的训练数据就躺在互联网上,那么机器人的数据则藏在现实世界里。

  开门、拉抽屉、整理物品、做家务——机器人想学会这些能力,需要海量真实交互。

  可现实世界太贵了。

  此前,北美机器人明星公司 Figure AI 就曾与房地产巨头 Brookfield 达成合作,希望借助其管理的超过 10 万套真实住宅训练机器人。

  这种让机器人先进入家庭的思路是没错,但真实场景有限,家具维修,场景维护都是问题。

  基于此,Kairos 4D 选择了另一条路,把这些住宅直接搬进数字世界。

  一方面,数字化路线的优势在于新增场景的边际成本趋近于零,不受真实房源总量限制,另一方面,生成器还能让训练环境规模持续扩展。

  沿着这条路,大晓联合港中文 MMLab,一口气开源了两个关键资源:30 万套中国真实住宅户型数据集;5000 个完整可交互的 3D 家庭场景。

  前者提供真实世界的空间分布基础,后者则让机器人能够真正“住进去”、动起来、练起来。

  而且相比规模,更重要的是它们都来自中国家庭。

  此前,大多数开源室内场景数据集,都是基于欧美家庭构建的,开放式厨房、没有阳台、没有玄关。

  如果机器人长期在这样的环境里训练,真到了中国家庭,难免出现“水土不服”。

  而 Kairos-Homeworld 则第一次系统性地把中国家庭的空间结构纳入具身智能训练体系

  规模上,30 万套户型图相当于学术界常用 RPLAN 数据集的近 4 倍,是 ResPlan 的 17 倍。

  对于整个具身智能领域来说,这本身就是一块相当稀缺的数据底座。

  不过,仅有数据还不够。

  30 万套住宅再大,本质上仍然是一个静态数据集。如果每新增一个训练环境都需要人工建模,那么环境规模最终还是会遇到天花板。

  因此,Kairos-Homeworld 做的另一件事,是让 AI 学会自动生成新的家庭环境,以加速机器人的训练。

  为了做到这一点,Kairos-Homeworld 设计了一套分层生成框架。

  整个过程被拆解成四个阶段。

  生成户型图

  团队将传统住宅结构转化为层级化表示,让大语言模型先规划房间布局,再确定门窗位置和房间连通关系,从源头避免房间重叠和拓扑断裂等问题。

  布置家具

  系统先从俯视视角放置床、沙发、餐桌等大型家具,再以第一人称视角逐步补充厨房、浴室等空间细节。

  第三步,自动纠错

  通过视觉语言模型对场景进行闭环检查,自动发现并修正“沙发挡门”“柜子穿墙”等问题,将场景碰撞率从 0.20 降低至 0.05。

  第四步,补充可交互物体

  系统会进一步生成桌面摆件、厨房用品、收纳物件等细粒度元素,并为它们赋予材质、密度、摩擦系数等物理属性,让机器人能够直接进行抓取、移动和操作。

  相比直接端到端生成整个 3D 世界,这种分层方案不仅更加可控,也更容易保证空间合理性和物理一致性。

  在 30 人参与的用户评测中,Kairos-Homeworld 在合理性、美观度和复杂度三个维度均超过 Holodeck、LayoutGPT 和 LayoutVLM,综合偏好率达到 81.1%。

  更重要的是,这套系统已经开始进入真实训练流程。

  机器人接收全屋整理任务后,会自动拆解为多个子任务,按客厅、餐厅、厨房等空间动线依次执行,完成礼盒归柜、牛奶入冰箱等具体操作。

  相比过去主要服务导航训练的仿真环境,Kairos-Homeworld 生成的场景拥有完整且一致的空间结构,支持机器人跨房间连续行动;

  同时,场景中的物体都带有真实物理属性,机器人能够与十余种不同类别的物品进行自然交互。

  换句话说,Kairos-Homeworld 并不只是生成一套房子。

  它真正生成的,是一个机器人能够不断练习、不断犯错、不断成长的数字训练场。

  Kairos 3.0-4B:让机器人学会做梦

  训练场有了,还得有能在里面学习的大脑。而这,也在大晓的路线图之中。

  前不久,他们开源了 4B 参数世界模型 Kairos 3.0-4B

  在 THOR 平台上,Kairos 3.0-4B 实现了1:1.5 的实时生成速度,推理速度比 NVIDIA 的 Cosmos 2.5 快了 72 倍

  换句话说,机器人每 1 秒钟都能生成未来 1.5 秒的动作视频。

  而这种预测,并不是简单的视频生成。

  作为一个世界模型,Kairos 3.0-4B 最核心的能力,是对物理规律的理解。

  例如在倒水或倒牛奶时,液体流速、水柱收窄等细节都符合真实流体运动规律。

  在高难度的叠石头任务中,模型同样遵循重力与摩擦等物理法则,能够维持合理的支撑结构和平衡关系。

  即便面对洗衣服这类涉及柔性物体的任务,衣物也会随着抓取、掉落自然变形。

  而此前在外网刷屏的一段 7 分钟连续家务 Demo,则进一步展示了它在长程任务中的能力。

  机器人先整理茶几上的杂物,再进入洗衣房收拾衣物,随后来到厨房准备早餐。整个过程一镜到底,没有任务切换,也没有人工干预。

  那么问题来了。

  一个只有 4B 参数的世界模型,为什么能做到实时预测,还能在复杂场景里保持物理一致性?

  答案来自三个方面。

  首先,是架构

  Kairos 3.0-4B 采用了「理解-生成-预测」一体化设计。

  传统世界模型通常需要先生成未来视频,再从视频中反推出动作指令。模拟世界和输出动作是两个独立过程。

  Kairos 则直接将视觉表征映射为动作输出,把世界模拟器和动作执行器合二为一,大幅缩短了推理链路。

  其次,是数据

  Kairos 3.0-4B 融合了物理规律(CoT 文本)、人类行为数据以及真机交互数据三类来源。

  其中,物理规律负责回答“为什么这么做”,人类行为负责提供“应该做什么”的范例,而真机数据则补齐“具体怎么做”的执行细节。

  这种数据组合,让模型学到的不只是动作本身,还有动作背后的因果逻辑。

  最后,是效率

  Kairos 3.0-4B 引入了首个专为世界模型设计的混合线性注意力算子

  它将时间复杂度从O(n²) 降至O(n),既保留了长时序建模能力,又显著降低了计算和显存开销。

  最终,Kairos 生成 10 秒任务仅需 9.5 秒,显存占用 23.5GB,而 14B 参数的 Cosmos 2.5 则需要 70.2GB 显存。

  更重要的是,这意味着世界模型第一次真正具备了部署到机器人端侧实时运行的能力。

  它不仅能够在英伟达平台运行,也兼容沐曦、海光、壁仞等国产 GPU;同时支持单臂、双臂以及灵巧手等不同机器人形态。

  世界模型不再只是实验室里的演示视频,而开始真正成为机器人的“大脑”。

  一个大脑,一个训练场

  如果把大晓这两项工作放进英伟达具身负责人 Jim Fan 提出的路线图里看,会发现一件有意思的事。

  Jim Fan 最近在红杉的一场分享中提到,机器人想要像大语言模型一样实现规模化发展,需要同时具备三样东西:

  世界模型(World Model)、数据(Data)和环境(Environment)。

  其中,世界模型负责理解物理规律,相当于大语言模型的预训练;

  特定的数据负责让机器人学习具体任务,从“知道世界如何运转”走向“知道该怎么做”,相当于微调。

  而环境则决定了机器人能够经历多少种场景、犯多少次错误,以及最终能够达到怎样的泛化能力。

  所以,按照这张路线图来看。

  Kairos 3.0 对应的是世界模型。而 Kairos-Homeworld 则同时提供了另外两块关键拼图:

  一方面,它开源了 30 万套中国住宅户型和 5000 个完整家庭场景,为机器人提供训练数据;

  另一方面,它又能够持续生成新的可交互家庭环境,为机器人提供近乎无限扩展的数字训练场。

  单独看 Kairos 3.0,它是一篇世界模型工作;单独看 Kairos-Homeworld,它是一篇环境生成工作。

  但放在一起看,大晓最近交出的两份答卷,恰好对应了具身智能规模化发展最核心的三项基础设施。

  团队介绍

  最后,让我们来简单的介绍一下 Kairos 系列背后的团队——

  大晓机器人

  大晓于去年 12 月初正式对外亮相,由商汤科技联合创始人王晓刚担任董事长,澳大利亚科学院院士陶大程出任首席科学家。

  团队来自南洋理工、港大、港中文,研究方向覆盖环境智能、世界模型与具身基础模型。

  作为商汤在具身智能领域的自然延伸,大晓承担着将“数字大脑”装入“实体机器人”的使命,技术路线围绕“以人为中心”的具身智能研究范式展开。

  公司近期完成了由蚂蚁集团领投的天使轮融资,资金将主要投入世界模型和具身研发范式的迭代与落地。

  Kairos 3.0-4B:https://github.com/kairos-agi/kairos-sensenova

  HomeWorld:https://kairos-homeworld.github.io/