狂跑一万帧丝滑不崩!拿着几十块单摄走一圈,整栋楼3D地图建好了

  新智元报道

  编辑:好困桃子

  SLAM 教父罕见公开点赞!中国队开源的 LingBot-Map,仅靠普通摄像头实现万帧流式 3D 重建,在全网引爆 120 万人围观。

  几十块的摄像头,干翻几万块的激光雷达。

  没想到,中国队开源的 LingBot-Map,直接引爆了全球机器人圈。

  一款流式 3D 重建基础模型,仅靠一颗普通 RGB 摄像头,不要激光雷达,不要深度传感器,20FPS 实时建出完整 3D 地图。

  最恐怖的是,连续跑一万帧,精度几乎不掉。

  Agility Robotics 的 AI 研究员说,「等这一天等了太久」。

  就连 SLAM 领域的泰斗级人物、帝国理工学院教授 Andrew Davison 亲自下场点赞——

  看起来这里面融入了令人印象深刻的 SLAM 思考。祝贺你们取得的成果。

  Davison 几乎从不公开评价具体的工程项目。他愿意主动转发并用「impressive」这个词的工作,圈里人都会多看两眼。

  SLAM 泰斗下场

  大佬直呼「终于等到了」

  LingBot-Map 让机器人真正「看懂」了全世界,它的开源引全网 120 万人围观。

  多位头部 KOL 纷纷转赞,得到了业界的重量级认可。

  这个让 SLAM 教父破例转发、让产业界研究员直呼「等太久」的东西,到底什么效果?

  蚂蚁灵波放出的实测给了答案。

  航拍俯瞰场景,摄像头从高处扫过一整片城市街区,LingBot-Map 实时重建出建筑立面、屋顶结构、街道路面和行道树的完整 3D 点云,连楼顶的空调外机都能分辨。

  室内穿梭场景,摄像头从厨房走进客厅再穿过走廊,场景光照和结构持续变化,重建出的多房间 3D 地图在空间上严格对齐,没有房间之间的错位和重影。

  暗光走廊是个极端测试。摄像头在几乎全黑的窄楼道里行进,传统视觉方案在这种条件下基本失效,LingBot-Map 依然跑出了连贯的走廊结构和稳定的轨迹线。

  更有意思的是,团队把自家世界模型 LingBot-World 生成的卡通风格视频喂给 LingBot-Map,照样完成了稳定的 3D 重建。

  输入是 AI 生成的虚拟日式街道,输出是带有精确空间坐标的 3D 点云,两个模型的兼容性直接打通了「虚拟世界→3D 空间理解」的链路。

  轨迹对比视频就更直观了。

  在 Oxford Spires 和 Tanks & Temples 两个数据集上,LingBot-Map 的预测轨迹(橙色)几乎与 ground truth(蓝色)完全重合,而同场竞技的 TTT3R 和 WinT3R 已经严重漂移。

  打开引擎盖

  里面是一套「选择性记忆」系统

  流式 3D 重建的核心难点就一个,怎么让模型「边看边建」的同时,既不遗忘过去,又不撑爆内存。

  传统 3D 重建是「先拍完、再处理」。

  流式重建要求系统一边接收新画面,一边持续定位和建图,还要严格控制计算和存储开销。

  于是,之前的方案普遍卡在了一个取舍上。

  有的压缩太狠,跑着跑着就忘了前面看到过什么;有的把所有历史帧都缓存下来,结果内存随序列长度线性增长,跑不了长视频;还有的把深度学习模型和传统 SLAM 后端拼在一起,效果还行但需要手工调参,实时性不够。

  LingBot-Map 的思路,是从经典 SLAM 里借了一个结构性洞察。

  要让机器人在未知环境里边走边建图,至少需要维护三种不同粒度的空间记忆。但传统 SLAM 靠工程师手动编写几何约束来管理这些记忆,灵活性有限。

  LingBot-Map 把同样的结构内化到了 Transformer 的注意力机制里,让模型自己学会该记什么、该忘什么。

  这套机制叫几何上下文注意力(GCA),同时维护三层记忆。

  1. 锚点(Anchor),记住「我从哪出发」。

  前几帧作为锚定帧,锁死坐标系和尺度基准,就像 GPS 基站。模型处理第一万帧时,仍然清楚第一帧在什么位置。

  2. 位姿参考窗口(Pose-reference window),记住「我身边有什么」。

  保留最近几十帧的完整视觉信息,捕捉当前位置附近的密集几何细节,相当于驾驶时眼前的挡风玻璃视野。

  3. 轨迹记忆(Trajectory memory),记住「我走过的路」。

  远处的历史帧不需要保留所有视觉细节,每帧只留 6 个极紧凑的摘要 Token,把一整条行走轨迹的关键几何信息压缩到很小的内存里。后视镜看不到每条街的门牌号,但足够让你知道自己从哪来。

  三层记忆听着复杂,但跑起来非常「省」。

  拿一万帧的视频来说,标准因果注意力要缓存约 500 万个 Token,GCA 只要约 7 万个。每新增一帧,标准方案要新增约 500 个 Token,GCA 只新增 6 个。内存增长速率压缩了约 80 倍。

  这就是为什么 LingBot-Map 能在恒定内存下跑完万帧以上的长视频,而其他方案跑几千帧就开始崩。

  训练方面,团队采用了两阶段策略。

  第一阶段先在 29 个涵盖室内、户外、合成、真实世界的数据集上训练基础模型,建立通用的几何理解能力。

  第二阶段引入 GCA,训练视图数量从 24 逐步拉长到 320,让模型先学会看短片段,再逐步掌握长轨迹。

  跑分方面,论文在 5 个 benchmark 上做了全面评测。

  Oxford Spires(牛津大学校园大规模室内外混合轨迹),ATE 轨迹误差 6.42 米,第二名是 18.16 米,差距接近 3 倍。

  更值得说的是,这个精度甚至超过了需要看完全部帧再统一计算的离线方法(12.87)和需要反复迭代优化的传统方法(10.52)。

  从 320 帧拉长到 3840 帧,ATE 仅从 6.42 升到 7.11,几乎不随序列增长衰减。

  ETH3D(室内外混合,激光扫描深度真值),重建 F1 分数达到 98.98,较第二名的 77.28 提升超过 21 个百分点。

  Tanks & Temples(大规模户外结构),ATE 0.20 米,第二名是 0.76 米。

  7-Scenes(室内 RGB-D),ATE 0.08 米,全场最低。

  对机器人意味着什么?

  学术圈看 ATE 和 F1,机器人厂商算的是另一笔账。

  首当其冲的是硬件成本。

  一套工业级激光雷达,便宜几千美元,贵的上万,加上 IMU、标定工具链和软件适配,感知模块轻松吃掉整机成本的三分之一。LingBot-Map 只要一颗几十块钱的 RGB 摄像头。

  家用服务机器人、低速配送车这类对售价极度敏感的品类,砍掉激光雷达的意义远大于多加一颗芯片。

  其次是长航时自主导航。

  机器人在大型物流中心或城市街道做巡检,连续工作几个小时是基本要求。

  传统方案跑长了内存就溢出。而 LingBot-Map 恒定内存处理万帧的能力,让机器人在超大空间中长时间自主导航不再是问题。

  还有一个是灵巧操作。

  这就要提到蚂蚁灵波今年 1 月开源的 LingBot-Depth。

  机器人抓透明玻璃杯、不锈钢容器时,传统深度相机几乎是「瞎的」。透明和反光材质无法反射有效回波,深度图会出现大面积空洞。

  LingBot-Depth 用掩码深度建模(MDM)技术解决了这个问题。

  训练时故意遮住一部分深度区域,逼模型从 RGB 图像的纹理、轮廓中推断真实距离。结果就是,在 NYUv2、ETH3D 等权威基准上刷到 SOTA,深度精度甚至超过了工业级深度相机。

  模型已通过奥比中光深度视觉实验室认证,双方达成战略合作,计划推出新一代深度相机。真机测试中,透明储物盒上实现了 50% 的抓握率。

  LingBot-Depth 负责「看清每个像素有多远」,LingBot-Map 负责「实时理解整个三维场景」。

  两者组合,机器人的空间感知闭环合拢。

  机械臂面对厨房里的玻璃杯、实验室里的试管、仓库里的反光金属容器,都有了可靠的 3D 空间参考。

  一张拼图,五步走完

  把视角拉得更高来看,LingBot-Map 的开源不是一个孤立事件,而是蚂蚁灵波一条清晰的具身智能技术进化路径上的最新里程碑。

  回过头看蚂蚁灵波过去三个月的路线图。

  今年 1 月,灵波在「具身智能进化周」里一口气开源了四款模型。

  • LingBot-Depth 负责深度感知。

  • LingBot-VLA 是具身大模型,在上海交大 GM-100 评测中刷新了真机成功率纪录。

  • LingBot-World 对标 Google Genie 3,16 FPS 实时交互。

  • LingBot-VA 首次实现自回归视频-动作联合建模,真机任务成功率比 Pi0.5 平均提升 20%。

  但中间一直缺一块。

  深度估计是逐帧的「点」信息,3D 建图是持续的「面」信息,中间这层实时空间理解,之前是空白的。

  LingBot-Map 的到来,精准地补上了这块拼图。

  至此,蚂蚁灵波的具身智能技术栈形成了一个完整的闭环:

  看清世界(Depth)→ 理解空间(Map)→ 模拟物理(World)→ 决策行动(VLA/VA)

  这条链路的每一个环节全部以 Apache 2.0 协议开源,代码、权重、技术报告同步上线 Hugging Face 和 ModelScope。

  这在全球范围内,是极为少见的。

  对机器人行业来说,一颗摄像头能干的事,从今天开始变多了。

  Hugging Face:

  https://huggingface.co/robbyant/lingbot-map

  ModelScope:

  https://www.modelscope.cn/models/Robbyant/lingbot-map

  GitHub:

  https://github.com/Robbyant/lingbot-map

  Paper:

  https://arxiv.org/abs/2604.14141

  Homepage:

  https://technology.robbyant.com/lingbot-map