一套算法控制机器人军团!纯模拟环境强化学习,Figure学会像人一样走路

  新智元报道

  编辑:编辑部 HXs

  Figure 公司通过强化学习,成功实现机器人的自然步态。利用高效物理模拟器,仅用几小时完成相当于多年训练的数据,训练出的策略无需额外调整即可「零样本」迁移至真实机器人。

  现在训练机器人,都不需要真实数据了?

  刚刚,Figure 提出了一种全新的基于 RL 的端到端网络。

  只需要在纯模拟环境中进行训练,用几个小时生成模拟数据,就能让 Figure 02 像人类一样自然行走了!

  该方法的亮点如下:

  • 在模拟环境中运用强化学习,让机器人不断试错,学会像人类一样走路。

  • 通过高保真物理模拟器,仅用几个小时,就模拟出多年的数据。

  • 将模拟中的域随机化与机器人上的高频扭矩反馈相结合,无需微调,就能把模拟环境中的策略应用于真实机器人。

  更让人惊喜的是,一个神经网络策略就能控制一大批机器人!

  通过一个高保真物理模拟器,Figure 最新的机器人仅用几个小时,就能模拟出几年的数据。

  为了把模拟环境的训练成果应用到真实机器人上,团队采用了两种办法。

  一是在模拟训练时进行域随机化,让机器人接触不同的物理属性;二是在真实机器人上安装高频扭矩反馈装置。

  这样一来,模拟环境中训练好的策略,无需任何微调,就可以「零样本」迁移到真实硬件上。

  在强化学习中,控制器通过不断试错,根据奖励信号来调整自己的行为。

  Figure 在高保真模拟环境中训练 RL 控制器,运行数千个具有不同参数和场景的虚拟人形机器人。

  这种多样化的训练,使训练出的策略能直接用在真实的 Figure 02 机器人上,走出稳健的人类步伐。

  Figure 基于 RL 的训练方法,大大缩短了开发时间,在现实世界中表现也很稳定。

  强化学习训练

  用强化学习方法,在 GPU 加速的物理模拟环境中,训练行走控制器。

  这个模拟环境效率超高,短短几个小时就能收集到相当于数年的模拟训练数据。

  在模拟器中,数千个 Figure 02 机器人并行训练,每个机器人的物理参数都不一样。

  它们会遇到各种各样的情况,像不同的地形,执行器动力学变化,以及被绊倒、滑倒和推搡等。

  这时,一个神经网络策略学习控制所有的机器人。

  人形机器人有个很大的优势,它的硬件平台通用性很强,能执行类似人类的任务。

  不过,RL 训练出来的策略,有时不是最佳的,没办法让机器人走出人类走路的感觉,比如脚跟先着地、脚尖蹬地,手臂摆动和腿部动作的配合。

  所以,在训练时,会奖励那些走路轨迹像人的机器人,把偏好融入学习中。

  这些轨迹为策略允许生成的行走风格建立了先验条件。

  除了走路轨迹像人,研究者还设置了其他奖励条件,比如优化机器人速度跟踪、功耗更低,更好地应对外界干扰和地形变化。

  从模拟到现实的跨越

  最后一步,是把模拟环境中训练好的策略应用到真实的机器人上。

  模拟机器人只是高维机电系统的近似,在模拟环境中训练的策略只能保证在这些模拟机器人上有效,不一定能在真实机器人上正常工作。

  为解决这个问题,在模拟训练时,采用域随机化技术,随机改变每个机器人的物理属性,让策略能适应各种不同的情况。

  这有助于策略零样本泛化到真实机器人上,而无需任何额外的微调。

  同时,在真实机器人上,用千赫兹速率扭矩反馈控制,来修正执行器模型的误差。

  这样,即使机器人之间有些差异,如地面摩擦力不同,或受到外界推搡,这个策略都具有鲁棒性,能让 Figure 02 机器人像人一样行走。

  可以看到,10 个 Figure 02 机器人用得都是同一个 RL 神经网络。

  说明现有的策略不用再做调整,就能推广到大批机器人,对未来的大规模商业应用是个好消息。

  Fi‍gure Robotics

  Figure Robotics 是一家新兴的机器人公司,专注于开发通用人形机器人,旨在通过先进的人工智能扩展人类能力。

  公司专注于构建像人类一样学习和推理的机器人。

  Figure Robotics 一开始与 OpenAI 合作,然而在内部人工智能(Helix)方面取得「重大突破」后,于 2025 年 2 月结束了合作,Figure Robotics 转为自主开发 Helix VLA 模型。

  Figure 02 具有肉眼看起来最接近未来成熟形态的外形设计。

  简直和威尔史密斯《I,Robot》中的机器人如出一辙,浑圆的面罩模型也避免了恐怖谷效应。

  身高和体重也完美模拟一个成年男性。

  当机器人能像人类一样学会自然行走,是否意味着也能像人一样学会其他「自然」动作?

  更加重要的一个「隐喻」是,目前所有的人形机器人都是按照人类的形态打造的。

  这更加方便了未来机器人与人类生活的融合。

  除了自然行走,机器人还有很多「人类技能」需要学习,但他们已经在路上了。

  参考资料:

  https://x.com/Figure_robot/status/1904534311589785885

  https://www.figure.ai/news/reinforcement-learning-walking