具身智能破壁者Dexmal原力灵机,靠Dexbotic开启加速时代

当前,具身智能正处在从实验室演示迈向规模化商用的关键转折点。

据不完全统计,仅 2025 年前 7 个月,我国具身智能领域就已发生投融资事件 108 起,公开融资规模超过 271 亿元,数量和金额均超过 2024 年全年。人形机器人作为具身智能的重要载体,其产业规模被普遍认为有望超越新能源汽车。

然而,在资本与热度背后,整个领域正面临标准化缺失带来的发展瓶颈:各大研究机构各自为战,技术路线分散、实验难以复现、工程效率低下,形成了一座座“技术巴别塔”。

学术界虽已涌现 Pi0、OpenVLA、CogACT 等代表性模型,产业界也在持续推动机器人实现“听得懂、看得懂、做得对”,但不同团队采用的框架、基座与接口各不相同,导致研究成果难以横向对比,工业落地也缺乏统一的技术底座。

这样的背景下,Dexmal 原力灵机在 2025 年推出了一站式视觉-语言-动作(VLA)开源工具箱——Dexbotic。

它以“实验为中心”为核心设计理念,结合跨模态预训练模型 DexboticVLM 与配套开源硬件 DOS-W1,构建出一个软硬件协同的具身智能基础设施。Dexbotic 不只是一个模型框架,更像是具身智能领域的底层系统,为研究者和工程团队提供了可复现、可扩展、可落地的统一底座,帮助行业摆脱重复造轮子的困境。

那么,现在的具身智能行业面临着哪些挑战?为什么一个像 Dexbotic 一样的 VLA 模型工具箱如此不可或缺?

在过去几年里,具身智正在成为人工智能领域最具潜力的研究方向。

从 RT-2 到 OpenVLA,再到 Pi0,越来越多的研究试图让机器人同时“看得懂”“听得懂”“做得到”。

然而,随着研究不断深入,一个根本性挑战浮出水面:VLA 领域正陷入一场巴别塔困境,它的复杂度不仅在算法,更在实验体系的割裂与工程链条的低效。就像神话故事中那座因语言混乱而永远未能建成的高塔,当前 VLA 研究虽目标一致,却因技术路线、开发框架和评估标准的割裂,导致整个领域难以形成合力、构建起统一的技术大厦。

尽管论文数量与模型规模迅速增长,VLA 研究却陷入了结构性割裂。每个团队都有自己的模型结构、训练管线和数据格式,有的用 JAX,有的用 TensorFlow,大部分转向 PyTorch。看似同一个任务,模型结构和接口等底层实现却完全不兼容,复现一个实验往往要从零搭建环境。

这种割裂直接拖慢了研究进程。进行算法对比评测时,研究人员需要为每一种不同的 VLA 策略配置多份独立的实验环境、适配不同的数据格式,并手动调整复杂的参数配置文件。大量时间被耗费在“配环境”和“跑通代码”上,而非算法创新本身。结果就是,实验难以复现、性能无法公平比较,模型迭代也远远落后于基础大模型的进步节奏。

并且,大多数现有的 VLA 模型往往基于过时、不同时期的 VLM 核心进行构建。它们无法快速集成最新的、性能更强大的大型语言模型,导致 VLA 模型的感知和语言理解能力无法与前沿 LLM 发展保持同步,从而限制了机器人处理复杂、泛化任务的能力。

碎片化的巴别塔困境不仅让具身智能研究陷入效率困境,也让产业界望而却步。机器人厂商想应用 VLA,却发现不同模型难以迁移;高校和研究机构想复现论文,却要从头搭建环境。整个领域像在并行造轮子,进展虽快,却缺少一条能让研究成果持续叠加的公共底座。

在这样的背景下,学界与产业界逐渐认识到:具身智能的下一阶段突破,将由开源体系所驱动。产业迫切需要一套统一、开放、可复现的框架,使 VLA 研究能像大语言模型一样实现标准化与模块化。

换言之,当前领域最迫切需要的不是又一个模型,而是一个能终结巴别塔困境的开源基础设施——一个能让实验、代码、数据与模型高效循环的开放体系,以此凝聚社区力量,引领具身智能的协同演进。

在这样一个割裂的研究生态中,Dexbotic 的出现显得格外及时。

2025 年,Dexmal 原力灵机推出了 Dexbotic,一整套基于 PyTorch 的开源 VLA 模型工具箱,试图解决具身智能发展道路上的系统性瓶颈。

首先,一个强大统一的底座让 VLA 领域的快速复现、公平比较成为可能。

Dexbotic 的核心设计理念是统一。它将所有 VLA 方法重新抽象为两大模块:视觉语言模型(VLM)与动作专家(ActionExpert)。VLM 由视觉编码器、投影层和大语言模型组成,用于理解视觉与指令信息;ActionExpert 则负责将这些信息转化为具体动作,无论是 DiffusionTransformer、MLP 还是 MoE,都可以在同一接口下实现。

这种架构实现了 VLA 在结构层面的标准化:不同团队、不同算法、不同机器人不再割裂,而能在同一框架中被复现、比较和扩展。

并且,Dexbotic 不仅提供框架,还自带了强大的预训练模型基座。团队自研的 DexboticVLM 采用 CLIP 作为视觉编码器,结合 Qwen2.5 语言模型,并通过跨模态对齐预训练,让模型在理解视觉信息与语言指令的关联上更为精准。与以往基于 LLaMA2 的方案相比,它在感知和语言理解能力上都有显著提升。以 SimplerEnv-Bridge 基准测试为例,Dexbotic 版本的 CogACT (DB-CogACT)的平均成功率绝对值超越了官方 CogACT 18.2% ,而 DB-OFT 的平均成功率则绝对提升了 46.2% ,充分展示了 Dexbotic 预训练模型的强大性能。

在系统设计上,Dexbotic 的强大性能远不止软件层面。它支持多构型本体(multi-configuration embodiment),能够在单臂、双臂、移动操作平台乃至全身控制任务间无缝切换。无论是 humanoid 机器人、仓储机械臂,还是服务类机器人,都可以在同一架构下共享训练逻辑与模型能力,使具身智能的研究从单一平台走向多样形态的协同发展。

其次,如果说统一架构解决了“能否运行”的问题,那么 Dexbotic 引入的“以实验为中心”的开发范式,则进一步解决了“能否高效运行”的挑战。

作为对 LeRobot 等机器人学习框架的升级,Dexbotic 进一步优化了实验定义流程。Dexbotic 通过 Python 脚本定义实验,用户只需继承基础实验模板(BaseExp),修改少量字段,即可构建新的实验流程。这让整个开发过程从调配置变成了写逻辑,更贴近研究者的思维习惯,让 VLA 研究回归实验本质。

架构上,Dexbotic 分为三层:数据层、模型层与实验层。

数据层负责整合和标准化多构型本体的数据,将来自不同机器人平台的原始信息统一转化为 Dexdata 格式。这一格式兼容 UR5、Franka、ALOHA 等多种真实机器人及多视角输入,使得不同实验之间的数据能够无缝互通;模型层汇聚了包括 Pi0、MemoryVLA 在内的多种主流 VLA 算法,为研究者提供标准化的实现和统一的接口,方便在同一框架下进行复现、比较与扩展,而实验层则是整个系统的中枢,承担快速开发与部署的功能。它既支持在阿里云与火山引擎等云平台上运行,也能在消费级显卡上完成训练与测试,确保模型能够在各类主流仿真环境及真实机器人上稳定落地。

基于这一架构,Dexbotic 将 VLA 的开发周期从月、周级别缩短至天级别。研究者不再需要重复搭建环境,仅需几行脚本即可完成实验验证、模型微调与性能比对。

值得注意的是,Dexbotic 在设计之初就为未来的“全身智能”接口预留了接口。它已经实现了操控与导航的统一,并为全身控制下拓展空间。这意味着,机器人未来不仅能伸手,还能走过去伸手;不仅能理解任务,还能自主规划执行路径。

为了让这一具身智能的研究底座真正连接物理世界,Dexmal 原力灵机也同步推出了首款开源硬件产品——Dexbotic Open Source - W1(DOS-W1)。

这款硬件采用全面开源的设计理念,计划公开包括技术文档、物料清单、结构图纸、组装指南及核心代码在内的所有资料。模块化的快拆结构与可替换部件大幅降低了实验搭建与维护的门槛,符合人体工学的抗疲劳设计则提升了长时间操作与数据采集的舒适度与稳定性。

未来,Dexmal 原力灵机将联合更多产业伙伴,持续拓展 Dexbotic Open Source 系列产品,以开源硬件为载体,让具身智能研究从仿真走向现实,加速机器人技术在实际场景中的落地与应用。

而这些设计不仅体现在工程实践上,更在研究方法上带来重要革新。

从学术角度看,Dexbotic 的贡献在于让 VLA 研究第一次具备了结构化、可复现、可扩展的标准;从工程角度看,它提供了通用的底层模块与实验接口,打通了数据、模型、控制三者之间的壁垒;而从生态角度看,它为具身智能建立了一个真正开放的合作平台,让研究成果能够以模块化形式共享与演化。

可以说,Dexbotic 正在为具身智能从局部控制迈向整体认知铺路:它不只是一个框架,更接近于具身大脑的雏形。

Dexbotic 的推出,正在推动具身智能研究进入加速发展阶段。

它让 VLA 从碎片走向统一,从实验走向生态。

对于学术界而言,这意味着公平与复现。长期以来,具身智能研究面临着算法复现困难、实验标准不一的问题。不同团队采用的数据集、训练框架乃至评估指标各不相同,导致结果难以横向比较,研究壁垒高筑。Dexbotic 提供了统一的代码库与预训练模型,打破了实验复现的壁垒,让不同算法能够在同一基线上公平比较。研究者可以在同一平台上对比 Pi0、CogACT、OpenVLA 等不同策略,真正隔离出算法差异;实验可复现、结果可量化让学术竞争回归科学本质。

在工程与产业层面,Dexbotic 降低了 VLA 落地的门槛。对于众多企业,尤其是资源有限的中小团队而言,从零开始构建并训练一个成熟的 VLA 模型,意味着巨大的时间与资金成本。Dexbotic 提供的“模块即用”式解决方案,允许开发者直接在其预训练模型基础上,针对特定机器人平台与应用场景进行高效微调。这种“模块即用”的工程思路将大幅压缩从实验到产品的周期,使中小团队也能快速验证具身智能应用。

而从更宏观的视角看,Dexbotic 的开源或将推动具身智能走向标准化。它通过提供统一的代码实现、模型接口与评估基准,将全球的研究与工程力量汇聚到同一个开放生态中,确保了不同技术路径的可复现性与公平可比性。当越来越多的模型、算法和数据汇聚在同一个开放生态中,创新的速度将被成倍放大。

在现实测试中,Dexbotic 已经展示出强劲的泛化能力。在 UR5、Franka、ALOHA 等多种机器人平台上,它稳定完成复杂任务:摆盘成功率 100%,堆叠碗具 90%,搜索物体 80%。而这正是具身智能的最终目标:从代码走向动作,从模拟走向现实。

具身智能的持续发展,离不开像 Dexbotic 这样的基础设施支持。它让研究和工程的边界变得模糊,让算法与机器人真正合为一个系统。它不仅加速了 VLA 研究的节奏,也让具身智能的发展路径变得更清晰。

Dexbotic 为全球研究者提供了一套统一的评测基础:通过统一的数据格式、工具链,并联动 RoboChallenge 大规模真机评测标准,令不同机器人能够在相同的基准与开放生态下公平竞赛。可以说,Dexbotic 奠定技术底层,RoboChallenge 则点亮场景高光,二者共同勾勒出从实验室到真实应用的完整闭环。

或许在不远的将来,当我们谈论机器人如何理解世界、与人协作时,Dexbotic 这个名字,会像操作系统或编译器一样,成为这场变革背后看不见的基础;而 RoboChallenge 这样的标杆测试,则将持续为这个快速演进的领域树立真实世界的衡量标准和创新灯塔。