国思软件 - 狂跑一万帧丝滑不崩！拿着几十块单摄走一圈，整栋楼3D地图建好了

　　新智元报道

　　编辑：好困桃子

　　SLAM 教父罕见公开点赞！中国队开源的 LingBot-Map，仅靠普通摄像头实现万帧流式 3D 重建，在全网引爆 120 万人围观。

　　几十块的摄像头，干翻几万块的激光雷达。

　　没想到，中国队开源的 LingBot-Map，直接引爆了全球机器人圈。

　　一款流式 3D 重建基础模型，仅靠一颗普通 RGB 摄像头，不要激光雷达，不要深度传感器，20FPS 实时建出完整 3D 地图。

　　最恐怖的是，连续跑一万帧，精度几乎不掉。

　　Agility Robotics 的 AI 研究员说，「等这一天等了太久」。

　　就连 SLAM 领域的泰斗级人物、帝国理工学院教授 Andrew Davison 亲自下场点赞——

　　看起来这里面融入了令人印象深刻的 SLAM 思考。祝贺你们取得的成果。

　　Davison 几乎从不公开评价具体的工程项目。他愿意主动转发并用「impressive」这个词的工作，圈里人都会多看两眼。

　　SLAM 泰斗下场

　　大佬直呼「终于等到了」

　　LingBot-Map 让机器人真正「看懂」了全世界，它的开源引全网 120 万人围观。

　　多位头部 KOL 纷纷转赞，得到了业界的重量级认可。

　　这个让 SLAM 教父破例转发、让产业界研究员直呼「等太久」的东西，到底什么效果？

　　蚂蚁灵波放出的实测给了答案。

　　航拍俯瞰场景，摄像头从高处扫过一整片城市街区，LingBot-Map 实时重建出建筑立面、屋顶结构、街道路面和行道树的完整 3D 点云，连楼顶的空调外机都能分辨。

　　室内穿梭场景，摄像头从厨房走进客厅再穿过走廊，场景光照和结构持续变化，重建出的多房间 3D 地图在空间上严格对齐，没有房间之间的错位和重影。

　　暗光走廊是个极端测试。摄像头在几乎全黑的窄楼道里行进，传统视觉方案在这种条件下基本失效，LingBot-Map 依然跑出了连贯的走廊结构和稳定的轨迹线。

　　更有意思的是，团队把自家世界模型 LingBot-World 生成的卡通风格视频喂给 LingBot-Map，照样完成了稳定的 3D 重建。

　　输入是 AI 生成的虚拟日式街道，输出是带有精确空间坐标的 3D 点云，两个模型的兼容性直接打通了「虚拟世界→3D 空间理解」的链路。

　　轨迹对比视频就更直观了。

　　在 Oxford Spires 和 Tanks & Temples 两个数据集上，LingBot-Map 的预测轨迹（橙色）几乎与 ground truth（蓝色）完全重合，而同场竞技的 TTT3R 和 WinT3R 已经严重漂移。

　　打开引擎盖

　　里面是一套「选择性记忆」系统

　　流式 3D 重建的核心难点就一个，怎么让模型「边看边建」的同时，既不遗忘过去，又不撑爆内存。

　　传统 3D 重建是「先拍完、再处理」。

　　流式重建要求系统一边接收新画面，一边持续定位和建图，还要严格控制计算和存储开销。

　　于是，之前的方案普遍卡在了一个取舍上。

　　有的压缩太狠，跑着跑着就忘了前面看到过什么；有的把所有历史帧都缓存下来，结果内存随序列长度线性增长，跑不了长视频；还有的把深度学习模型和传统 SLAM 后端拼在一起，效果还行但需要手工调参，实时性不够。

　　LingBot-Map 的思路，是从经典 SLAM 里借了一个结构性洞察。

　　要让机器人在未知环境里边走边建图，至少需要维护三种不同粒度的空间记忆。但传统 SLAM 靠工程师手动编写几何约束来管理这些记忆，灵活性有限。

　　LingBot-Map 把同样的结构内化到了 Transformer 的注意力机制里，让模型自己学会该记什么、该忘什么。

　　这套机制叫几何上下文注意力（GCA），同时维护三层记忆。

　　1. 锚点（Anchor），记住「我从哪出发」。

　　前几帧作为锚定帧，锁死坐标系和尺度基准，就像 GPS 基站。模型处理第一万帧时，仍然清楚第一帧在什么位置。

　　2. 位姿参考窗口（Pose-reference window），记住「我身边有什么」。

　　保留最近几十帧的完整视觉信息，捕捉当前位置附近的密集几何细节，相当于驾驶时眼前的挡风玻璃视野。

　　3. 轨迹记忆（Trajectory memory），记住「我走过的路」。

　　远处的历史帧不需要保留所有视觉细节，每帧只留 6 个极紧凑的摘要 Token，把一整条行走轨迹的关键几何信息压缩到很小的内存里。后视镜看不到每条街的门牌号，但足够让你知道自己从哪来。

　　三层记忆听着复杂，但跑起来非常「省」。

　　拿一万帧的视频来说，标准因果注意力要缓存约 500 万个 Token，GCA 只要约 7 万个。每新增一帧，标准方案要新增约 500 个 Token，GCA 只新增 6 个。内存增长速率压缩了约 80 倍。

　　这就是为什么 LingBot-Map 能在恒定内存下跑完万帧以上的长视频，而其他方案跑几千帧就开始崩。

　　训练方面，团队采用了两阶段策略。

　　第一阶段先在 29 个涵盖室内、户外、合成、真实世界的数据集上训练基础模型，建立通用的几何理解能力。

　　第二阶段引入 GCA，训练视图数量从 24 逐步拉长到 320，让模型先学会看短片段，再逐步掌握长轨迹。

　　跑分方面，论文在 5 个 benchmark 上做了全面评测。

　　Oxford Spires（牛津大学校园大规模室内外混合轨迹），ATE 轨迹误差 6.42 米，第二名是 18.16 米，差距接近 3 倍。

　　更值得说的是，这个精度甚至超过了需要看完全部帧再统一计算的离线方法（12.87）和需要反复迭代优化的传统方法（10.52）。

　　从 320 帧拉长到 3840 帧，ATE 仅从 6.42 升到 7.11，几乎不随序列增长衰减。

　　ETH3D（室内外混合，激光扫描深度真值），重建 F1 分数达到 98.98，较第二名的 77.28 提升超过 21 个百分点。

　　Tanks & Temples（大规模户外结构），ATE 0.20 米，第二名是 0.76 米。

　　7-Scenes（室内 RGB-D），ATE 0.08 米，全场最低。

　　对机器人意味着什么？

　　学术圈看 ATE 和 F1，机器人厂商算的是另一笔账。

　　首当其冲的是硬件成本。

　　一套工业级激光雷达，便宜几千美元，贵的上万，加上 IMU、标定工具链和软件适配，感知模块轻松吃掉整机成本的三分之一。LingBot-Map 只要一颗几十块钱的 RGB 摄像头。

　　家用服务机器人、低速配送车这类对售价极度敏感的品类，砍掉激光雷达的意义远大于多加一颗芯片。

　　其次是长航时自主导航。

　　机器人在大型物流中心或城市街道做巡检，连续工作几个小时是基本要求。

　　传统方案跑长了内存就溢出。而 LingBot-Map 恒定内存处理万帧的能力，让机器人在超大空间中长时间自主导航不再是问题。

　　还有一个是灵巧操作。

　　这就要提到蚂蚁灵波今年 1 月开源的 LingBot-Depth。

　　机器人抓透明玻璃杯、不锈钢容器时，传统深度相机几乎是「瞎的」。透明和反光材质无法反射有效回波，深度图会出现大面积空洞。

　　LingBot-Depth 用掩码深度建模（MDM）技术解决了这个问题。

　　训练时故意遮住一部分深度区域，逼模型从 RGB 图像的纹理、轮廓中推断真实距离。结果就是，在 NYUv2、ETH3D 等权威基准上刷到 SOTA，深度精度甚至超过了工业级深度相机。

　　模型已通过奥比中光深度视觉实验室认证，双方达成战略合作，计划推出新一代深度相机。真机测试中，透明储物盒上实现了 50% 的抓握率。

　　LingBot-Depth 负责「看清每个像素有多远」，LingBot-Map 负责「实时理解整个三维场景」。

　　两者组合，机器人的空间感知闭环合拢。

　　机械臂面对厨房里的玻璃杯、实验室里的试管、仓库里的反光金属容器，都有了可靠的 3D 空间参考。

　　一张拼图，五步走完

　　把视角拉得更高来看，LingBot-Map 的开源不是一个孤立事件，而是蚂蚁灵波一条清晰的具身智能技术进化路径上的最新里程碑。

　　回过头看蚂蚁灵波过去三个月的路线图。

　　今年 1 月，灵波在「具身智能进化周」里一口气开源了四款模型。

LingBot-Depth 负责深度感知。
LingBot-VLA 是具身大模型，在上海交大 GM-100 评测中刷新了真机成功率纪录。
LingBot-World 对标 Google Genie 3，16 FPS 实时交互。
LingBot-VA 首次实现自回归视频-动作联合建模，真机任务成功率比 Pi0.5 平均提升 20%。

　　但中间一直缺一块。

　　深度估计是逐帧的「点」信息，3D 建图是持续的「面」信息，中间这层实时空间理解，之前是空白的。

　　LingBot-Map 的到来，精准地补上了这块拼图。

　　至此，蚂蚁灵波的具身智能技术栈形成了一个完整的闭环：

　　看清世界（Depth）→ 理解空间（Map）→ 模拟物理（World）→ 决策行动（VLA/VA）

　　这条链路的每一个环节全部以 Apache 2.0 协议开源，代码、权重、技术报告同步上线 Hugging Face 和 ModelScope。

　　这在全球范围内，是极为少见的。

　　对机器人行业来说，一颗摄像头能干的事，从今天开始变多了。

　　Hugging Face：

　　https://huggingface.co/robbyant/lingbot-map

　　ModelScope：

　　https://www.modelscope.cn/models/Robbyant/lingbot-map

　　GitHub：

　　https://github.com/Robbyant/lingbot-map

　　Paper：

　　https://arxiv.org/abs/2604.14141

　　Homepage：

　　https://technology.robbyant.com/lingbot-map

狂跑一万帧丝滑不崩！拿着几十块单摄走一圈，整栋楼3D地图建好了

我们的产品

相关链接

关于我们

联系我们