5秒完成3D场景编辑,北大&港中文&上海AI Lab搞出VGGT-Edit

  VGGT-Edit 团队投稿量子位 | 公众号 QbitAI

  3D 世界“会看”了,但还不会“改”。

  从 NeRF 到 83D Gaussian Splatting,再到 VGGT、π³这类前馈式 3D 重建模型,整个行业的进展速度明显加快——只需几张图片,就能在几秒内重建完整 3D 场景。

  但问题也恰恰出在这里。这些模型虽然已经能理解三维世界,却还不会修改三维世界。你可以让它重建一个房间,却很难真正告诉它:

  把椅子移到窗边,删除中间那张椅子,把灰色皮沙发改成白色长毛沙发。

  更麻烦的是,一旦涉及复杂编辑,现有方法往往迌速崩採——某些角度里椅子消失了,换个视角椅子又重新出现;明明没改的背景,却跟着一起变形。

  为应对这一挑战,来自北京大学香港中文大学上海 AI LabNTU等机构的研究团队,提出了一套原生 3D 编辑框架:VGGT-Edit

  核心思路只有一句话——

  不再绕回 2D,而是直接在 3D 空间里完成编辑。

  在 DeltaScene 测试集上,VGGT-Edit 在语义一致性、多视角稳定性、推理速度三个维度均超过现有方法,单次编辑仅需约5 秒,最高实现120 倍加速。

  问题其实一直出在在 2D

  目前大多数编 3D 的方法,本质上仍然是“2D 思维”——先把场景拆成多弤 2D 图片,逐张编辑,再重新拼回 3D。

  但由于每个视角都是独立处理的,所以很容易出现:

  • 一个视角里椅子已经删掉了;
  • 换个角度椅子又重新出现;
  • 背景区域跟着一起漂移;
  • 物体边缘出现重影和闪烁。

  3D 编辑方法的比较

  很多结果看起来更像“在不同角度硬P出来的图”,而不是真正稳定的 3D 空间。

  对于机器人、AR/VR、空间智能这些方向来说,这几乎是致命问题——这些场景真正需要的,不是“某一个角度看起来对”,而是整个 3D 世界始终稳定一致。

  原生 3D 编辑,开始从概念走向可用

  VGGT-Edit 的核心思路非常直接:既然问题来自 2D,那就不要再绕回 2D。

  整个框架建立在 VGGT-Like 前馈式重建模型之上,继承了其快速、高效的 3D 表示能力。但有意思的是,团队并没有选择重新生成整个场景,而是提出了一种非常巧妙的机制:

  残差场预测(Residual Field Prediction)。

  简单理解就是:模型先保留原始场景稳定的 3D 结构,然后只学习“哪里需要变化”,例如:

  • 椅子往右移动;
  • 沙发材质发生变化;
  • 删除某个物体;
  • 新增一个家具。

  这些变化,都被表示成了:新场景 = 原场景 + 局部残差变化

  这个设计有个非常重要的好处——因为大部分区域本来就不需要变化,所以模型不用重新“生成整个世界”,只需修改局部,结果就是没改动的背景区域会非常稳定。

  这也是 VGGT-Edit 和很多现有方法最明显的区别之一。

  文本语义,第一次真正开始“对齐”3D 空间

  研究团队发现,如果只是简单把一句文本输入模型,很容易出现一种情况——模型知道“你想改什么”,但不知道“该改哪里”。

  为了解决这个问题,VGGT-Edit 设计了一套关键机制:

  深度同步文本注入(Depth-Synchronized Text Injection)

  本质上可以理解成让文本语义和 3D 空间特征,在同一个深度层级里持续同步。

  传统方法通常只在前面注入一次文本信息,但 VGGT-Edit 会在多个关键层持续融合文本语义,这样模型在整个 3D 生成过程中,始终知道:

  • 当前应该修改哪个区域;
  • 修改目标是什么;
  • 空间位置在哪里。

  与此同时,团队还专门设计了一套“视角重要性加权”——因为并不是所有视角都同样可靠,有些角度可能被遁挡,有些视角只能看到半个物体。

  VGGT-Edit 会自动判断哪个视角更值得信任,最终让多视角编辑结果更加稳定。

  一个真正面向“3D 编辑”的编辑头

  除了整体框架之外,VGGT-Edit 还有一个非常关键的部分——专门面向 3D 编辑任务设计的编辑头

  研究团队发现,对于 VGGT-Like 模型来说,原本的重建 Head 更关注“如何恢复场景”,但 3D 编辑真正需要解决的问题是:如何在保持整体稳定的情况下,只修改局部区域。

  因此,VGGT-Edit 额外设计了一套编辑分支,专门预测场景中的局部变化。

  这个编辑 Head 会直接作用于 3D 表示空间,并输出对应的残差场变化。本质上,它学习的是:

  • 哪些区域应该保持不变;
  • 哪些区域需要发生编辑;
  • 编辑后如何保持多视角一致。

  相比直接重新生成整个场景,这种方式更加稳定,也更加高效——这也是让 VGGT-Like 前馈重建模型具有编辑能力的关键一步。

  一个 10 万规模的数据集,专门训练“3D 编辑”

  为了训练 VGGT-Edit,团队专门构建了一个新 3D 编辑数据集DeltaScene,规模接近 10 万组,覆盖客厅、办公室、住宅、商业空间等多种场景。

  DeltaScene 数据集概述

  更重要的是,整个数据生成流程高度自动化。

  团队通过利用 Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max,自动完成编辑指令生成、目标识别、多视角编辑、3D 一致性过滤,最终得到真正满足“多视角几何一致”的训练数据。

  DeltaScene 数据构造流程

  对于原生 3D 编辑来说,这一步非常关键——模型真正需要学习的,不只是“图像变化”,而是同一个编辑,在不同视角下如何始终保持空间一致。

  3D 编辑,第一次开始接近实时交互

  从结果来看,这条路线确实有效。

  在 DeltaScene 测试集上,VGGT-Edit 在语义一致性、多视角稳定性、推理速度三个维度都超过了现有方法。

  尤其是在添加家具、调整位置、修改材质这些复杂任务中,很多传统方法仍然会出现明显的“贴图感”和几何漂移,但 VGGT-Edit 生成的结果,会明显更像一个真实稳定的 3D 空间。

  不同 3D 编辑任务的定性比较

  更关键的是速度——论文中,VGGT-Edit 单次编辑只需约5 秒,相比很多需要长时间优化的传统方法,最高可实现120 倍加速。

  这意味着编 3D 第一次真正开始接近实时交互。

  对于机器人、数字孪生、AR/VR 等方向来说,这种变化非常重要——只有当编辑速度足够快,3D 世界才真正可能变成“可交互”的世界。

  在 DeltaScene 数据集上的定量结果

  模型开始真正理解“空间变化”

  论文里还有一个非常有意思的实验。研究人员输入了一条训练中从未出现过的指令——“将中间椅子顺时针旋转 90 度。”

  结果模型依然成功完成了编辑。

  对未见过的指令进行泛化

  这说明 VGGT-Edit 学到的,并不只是固定模板,它真正开始理解文本语义如何映射到 3D 空间变化。

  而这件事,可能比“会生成 3D”本身更重要。因为对于空间智能来说,未来真正关键的能力,也许不是“生成一个世界”,而是能否像人一样,自由、稳定、实时地修改这个世界。

  VGGT-Edit,正在把这件事往前推进一步。

  论文链接:https://arxiv.org/abs/2605.15186