阿里练操作,Momenta 开真车,英伟达搭片场:三个"世界模型"根本不是一回事

  文 | AI 唱反调

  阿里、 Momenta、英伟达最近都在讲"世界模型"。阿里那个能让 AI 帮你操作电脑,Momenta 那个能让车预判路人下一步,英伟达那个能生成逼真的暴雨视频。如果不太关注技术细节,大概率会以为这是同一个方向的三次突破,像同一个班里的三个学霸同时考了满分。 

  真相很直接:这三样东西除了名字一样,几乎没有任何关系。把它们统称为"世界模型",就像把"世界地图""世界时钟"和"世界观"当成同一类东西。字面上都有"世界",实际各说各话

  阿里做的是让 AI 在电脑里先试错的"数字沙盘",Momenta 做的是让自动驾驶预判路况的"老司机直觉",英伟达做的是给 AI 造训练素材的"虚拟片场"。三个"世界",三条平行线,谁也不挨着谁。

  同名不同命

  第一个是阿里 Qwen-AgentWorld,本质上是一个给 AI 用的"数字沙盘"。

  它把浏览器、电脑桌面、手机界面、代码编辑器这些环境打包成一个虚拟游乐场,让 AI 在里面先试错、再行动。比如操作某个软件会不会点错按钮,先在沙盘里预演一遍,成功了再去操作真实的电脑。这基于超过 1000 万条真人操作电脑的记录训练。AI 看了上千万次真人怎么写代码、怎么搜索、怎么填表格,学会了"点这里之后通常会发生什么"。

  它的"世界"是电脑里的数字空间:网页、App、代码仓库。和真实的马路、真实的机器人没有直接关系。

  第二个是 Momenta,那套已经量产上车的系统,它是自动驾驶的"预判本能"。

  自动驾驶最大的难点已经变了。现在的问题不再是"看清前面有什么",变成猜出下一秒会发生什么。前车突然减速,是要靠边停车还是临时踩了一脚?路边行人是要过马路还是等公交?Momenta 就是让 AI 提前在脑子里过一遍未来几秒的交通画面,然后选最安全的动作。这背后不只是直觉,还涉及感知、预测、规划多个模块的协同。

  关键是,这东西已经量产了。Momenta 有 90 万辆车在跑,积累了 100 亿公里的真实驾驶数据。这些视频不只是"看着玩",里面包含"当时做了什么、车怎么反应、结果对不对"的完整因果链条。它的"世界"是真实的物理世界:马路、车辆、行人、雨雪天气。

  第三个是 NVIDIA Cosmos 3,它是给 AI 造训练素材的"虚拟片场"。

  它的核心能力是生成逼真的视频画面,但这些视频不是拿来刷的,是给机器人和自动驾驶当练习题用的。比如想让 AI 学会"暴雨天路面反光看不清车道线"怎么处理,现实中不可能天天等暴雨,Cosmos 3 就生成一段暴雨开车的视频,让 AI 在虚拟画面里反复练。

  它开源了权重,能处理文字、图片、视频、声音、动作指令五种信息,20 万亿 token(token 是 AI 处理信息的最小单元,文字、图像、视频、声音都会被切成这种"小块"喂进去)说明它看过、生成过巨量素材。但关键是,这些画面属于"合成数据",AI 自己造的,不是真实拍摄的。好处是成本低、场景全;坏处是"仿真"和"真实"之间永远有差距。

  它的"世界"是人造出来的仿真环境,本身不直接开车,也不直接操作电脑,只给其他 AI 提供练习题。

  世界模型:一个被掏空的标签

  其实"世界模型"定义混乱这件事,学界自己也头疼。今年 6 月初,李飞飞团队在 MIT Technology Review 发文,标题就叫《当视频生成、机器人和 NVIDIA 都自称世界模型》。文章里提到,Sora 被叫世界模拟器,Genie 被叫世界模型,现在连做自动驾驶的、做机器人的都在用同一个词。

  6 月中旬的智源大会上,智源研究院院长王仲远干脆把世界模型分成了四大类:以语言为中心的、以像素为中心的、以三维结构为中心的、以视觉表征为轴心的。看,连顶尖研究者都没法统一口径。

  那三者的共性到底是什么?它们都在做"预测"或"模拟"。预测点一下鼠标会发生什么,预测前车减速后下一秒的路况,预测暴雨天的路面长什么样。但预测的对象完全不同:一个在预测数字环境里的操作后果,一个在预测物理世界里的交通演变,一个在预测仿真画面里的场景参数。

  这就好比"预测"这个词,可以预测股票、预测天气、预测孩子考多少分,都是预测,但干的事完全不同。世界模型现在就是这个状态:同一个词,被用来描述三种完全不同的能力

  闭环定生死

  这三个"世界模型"不会合并成同一个东西,未来会沿着三条线走。

  第一条是数字世界模型,解决"AI 怎么操作软件、怎么写代码"的问题。由 Qwen、OpenAI、Claude 这类公司主导。特点是迭代快、数据成本低,因为电脑里的操作记录很容易获取。和我们关系最近:以后用的 AI 助手,可能先在后台沙盘推演一遍,再帮忙订机票、填表格。

  第二条是物理世界模型,解决"自动驾驶怎么安全开车、机器人怎么搬东西"的问题。由 Momenta、Tesla、华为这类公司主导。特点是数据成本极高,需要真车去跑,但一旦形成闭环,壁垒极深。和我们关系:以后坐的车、看到的无人配送车,背后都是这类模型。

  第三条是基础设施线,NVIDIA 的角色更像一个"卖铲子的"。Cosmos 3 提供合成数据,让上面两条线的开发者都能用,但它自己不直接开车,也不直接操作电脑。它赚的是"造影视基地"的钱,不是"拍戏"的钱。

  判断谁更领先,别只看参数大不大、开源不开源。真正重要的指标是闭环,AI 在真实环境里用了之后,能不能把结果反馈回来,让自己变得更聪明。

  Momenta 的闭环最扎实。90 万辆车每天在路上跑,AI 预测错了,数据就会回来告诉它"下次别这么猜"。这种真实世界反馈是合成数据替代不了的。

  Qwen 的闭环在数字世界。1000 万条真人操作的成功和失败经验被记录下来,成了 AI 的教材。在"让 AI 操作软件"这个赛道上,这是稀缺资产。

  Cosmos 3 的闭环在仿真基地内部其实很高。它生成视频、测试、反馈、再生成的循环在虚拟环境里跑得很快。但要把这些画面喂给真实世界的汽车或机器人,还要跨一道"从仿真到现实"的鸿沟。这一步目前还没完全打通。

  三者的区别很明显:Momenta 是在真刀实枪开车中进化,Qwen 是在真人操作电脑中进化,NVIDIA 是在人造影视基地里进化。没有高下之分,只是战场不同

  下次看到"世界模型"四个字,先问一句:说的是电脑里的、马路上的,还是人造影视基地里的?答案不同,选择完全不同。现在喊"世界模型"的,一半是真在做,一半是借这个词给自己贴金。分得清前者后者,才不会被 PR 稿带跑偏。