宇树科技发布并开源通用视觉语言行动模型 UnifoLM‑VLA‑0

  昨天宇树科技正式开源面向通用人形机器人操作的视觉-语言-动作(VLA)大模型「UnifoLM‑VLA‑0」。

  据悉,该模型基于 Qwen2.5‑VL‑7B 进行持续预训练,旨在突破传统 VLM 在物理交互中的局限,通过统一建模视觉、语言与动作序列,使机器人在复杂操作任务中具备更强的空间理解、任务泛化与动力学推理能力。

  官方表示,UnifoLM‑VLA‑0 的核心技术路径包括三方面:

  • 通过融合文本指令与 2D/3D 空间细节,显著增强模型的空间语义理解能力;
  • 构建覆盖检测、分割、3D 目标定位、空间推理与轨迹预测的多任务数据集,使模型在几何空间与语义逻辑对齐上获得提升;
  • 利用约 340 小时真机数据进行离散动作预测训练,并引入动作分块预测及前向/逆向动力学约束,使模型能够处理长时序动作规划与物理交互。

  在评测方面,模型在多个空间理解基准上相较 Qwen2.5‑VL‑7B 取得显著提升,并在「no thinking」模式下达到接近 Gemini‑Robotics‑ER 1.5 的表现。

  官方展示的零样本推理示例显示,模型能够根据文本指令推断目标物体位置并生成移动轨迹。

  在 LIBERO 仿真基准中,UnifoLM‑VLA‑0 作为单模型在多类任务上取得接近最优的平均成绩,覆盖 Spatial、Object、Goal、Long 等多个子任务维度。

  与 OpenVLA、OFT、T0 系列等模型相比,其在多数指标上保持领先或相近水平。

  💻 GitHub: https://github.com/unitreerobotics/unifolm-vla

  🤗 Hugging Face: https://huggingface.co/unitreerobotics/models