世界模拟器才是AGI终局,12态势预测!首席专家万字长文专业解读Sora里程碑

  新智元报道

  作者:胡延平

  编辑:好困桃子

  【新智元导读】生成 60 秒逼真视频,只是未来的一个小功能,母模型根科技原力觉醒。来自未来实验室的首席专家胡延平就爆火 Sora 模型做出了深度的个人解读。

  这几天反复看 Sora 的技术报告,以及各方对 Sora 的技术分析。

  基本三个角度:惊呼强大功能,分析 Sora(实现)大法,评估巨大冲击。

  冲击方面,主要关注点在于对影视、短视频、娱乐等领域的影响。

  但是,Sora 改变 AI 认知方式,开启走向「世界模拟器」的史诗级的漫漫征途,才是未来暴风眼,真正的重点。而世界模拟器,是远比 AGI、具身智能、元宇宙更炸裂的智能未来。

  Sora 技术报告最有价值、最语焉不详、最容易产生不同理解的一句话是:「通过扩大视频生成模型的规模,我们有望构建出能够模拟物理世界的通用模拟器,这无疑是一条极具前景的发展道路」。

  而本文所述世界模拟器,与 Sora 目前自述以及业内理解,可能不太一样。

  很显然要么是 Sora 言过其实,要么是 OpenAI 留了一手,要么是现阶段技术局限使然。

  1. Sora 只是二维视觉的压缩扩散和时空表达,不是物理引擎,也不是世界模型

  相比「现实不存在了」这种既乖张又夸张的表达,专业人士的意见貌似客观,但实际偏差也不小。

  Sora 不是英伟达高级科学家 Jim Fan 所称的数据驱动的物理引擎、一个可学习的模拟器或世界模型,也不会像周鸿祎所言能够让 AGI 一两年内就很快实现。

  从 LLM 的文本 Token/向量表征,到走向模拟器但还不是模拟器的 Patches 表达,是原理变化的核心。

  技术报告在原理部分高度保留,极为简略,但其中一张图比较重要。Sora 基于 Transformer 但是对 Transformer 进行了有力进化,结合了 Difussion,Patches 是关键。

  不过 Sora 怎么看都还只是二维视觉的时空表达,处处压缩,Patches 依然是图像内容关系信息,且有文本烙印,并不是物理世界规律的多维表征。世界模拟器前面加个定语——二维视觉世界模拟器,也许更准确。

  三维图像是数字世界的空间构建,二维视觉其实是像素的运动变化组合。三维、二维视频都可以看上去像是「物理的」,但实质可以只是运动变化拟合了物理规律,而不是像粒子渲染、工业仿真一样进行了物理规则、内在性状的数字构建。

  背后原因,如同你知道大模型输出的答案,知道大模型的计算原理,但是却像神经网络/深度学习之父 Geoffrey Hinton 和 OpenAI 前首席科学家 Ilya Sutskever 一样,其实不知道 GPT 是怎么「想」的。

  Patches 所携带的像素、位置、时空信息,以及与周围 Patches 的变化、运动、关系,在 Transform 的注意力机制和 Difussion 的正反向噪声过程,经过大规模视频数据训练,具有了解构和重构一切二维视觉的能力,面向用户表现为涌现式的生成,似乎充满创造力且符合物理规律,但背后其实是 Sora「理解」了 Patches/像素的变化、运动、位置在时空意义上的关系的数学、算法表征,这些变化和表征又拟合了物理世界的某些合理性。(Patches 并非像素)

  「理解」即算法,「思考」即模型。

  好拗口,好抽象,好累人,但可能这就是事实。

  比如,Sora 的工程师可能投喂了数千万甚至数亿条视频让大模型来学习,但是可能没有写过哪怕一行与物理性状规则有关的代码。

  再比如,Sora 可能的确学习了一些 3D 引擎生成的素材,并且像当初通过 DOTA2 游戏对战来改进模型一样,引入 3D 引擎来校正模型生成视频在视觉意义上的物理运动表现,但是百分百可以肯定 Sora 目前并没有内置 3D 引擎。

  Sora 让用户以为它理解了物理世界、物理规律,就像用户头戴苹果 Vision Pro 的时候以为看到了物理世界,但其实只是在屏幕上看到了携带不断变化的 RGB 色彩信息的单目 3648x3144 个像素的各种变化。

  甚至图像其实并不是连续的,而是以每秒 90-96 次的帧率不断刷新,拟合人眼视觉原理,让用户产生视频是连续的错觉。一旦快速甩头,画面就会产生运动模糊。重度游戏玩家甚至能体会到画面撕裂。

  视频符合物理规律,不等于视频的生成基于物理规律,更不等于生成视频的大模型本身是数据驱动的物理引擎。所谓物理,可以只是视频画面整体与局部、前后帧统一的像素级的变化规律、表征关系。

  2. 即使如此,Sora 还是打开 AI 新视界大门的那个史诗级的里程碑,大模型认知重启

  在对 Sora 原理的各种猜测里,华人 AI 学者谢赛宁的分析最为贴近。但是局限于技术原理的框架性拆解以及对灵活、可扩展性的强调,反倒没有道出 Sora 的突变实质——大模型认知重启。

  此外,直觉谢赛宁认为 Sora 目前只有 30 亿参数的估计也过于保守。

  Sora 被认为采用了以 Transformer 为主干的混合扩散模型 DIT,其中 DIT=VAE 编码器 +VIT+DDPM+VAE 解码器。

  此外,Sora 还可能使用与 Google 的 Patch n‘Pack(NaVit)类似的技术,以此适应不同分辨率、持续时间和⻓宽比。

  尽管在视频标注、将提示词转化为详细说明等方面,Sora 充满详实且强烈的文本色彩,但 Sora 实质上是完全基于视觉、面向视觉、以图像理解世界的大模型。

  这一点和过去 GPT「文本数据元」(不是神经元)意义上的 Token 有很大不同,Patches 是碎片、补片、基本单元意义上的「视觉信息元」(也不是神经元),Sora 里的文本只是人与机器之间、机器与视频之间的「翻译者」、「说明书」。

  图像、视频的信息量其实远大于文本,呈现在视觉里的现实世界更是如此。海量视频样本,已经让 Sora 建立了视觉世界的宏观/微观时空变化的基本动态关系「理解」。

  如果将 Sora 连接到全球各地的机器人、智能汽车、MR 头显、智能手机等设备,借助数智之眼,大模型将能够:

  1. 自己「亲眼」看到、学习和了解这个世界,而不是仅仅依赖人类投喂给系统的有限文本数据,海量知识信息的「新视界」之门由此打开。

  2. 智能设备后接 Sora+GPT,实时感知现实,是对具身智能的有力加持,机器人等智能设备有希望获得类似人类感知现实的视觉和判断能力,看到即学习,判断即意味。尽管一开始与人类感知能力还是有较大差距,但也远非传统计算机视觉可比。

  3. 加之 Sora 式的大模型的 Input 和 output 本来就可以充分文本化,所以丝毫不用担心这个机器认知的视觉世界和人类的自然语言交互/体感交互会有什么问题。这是一种机器知道视觉「意义」的理解过程。

  Sora 出现的最大意义,并非可以生成 60 秒、多个分镜头、主体统一的视频,而是意味着大模型由此可以「睁开眼睛」看世界,这是不亚于人类认知重启的 AI 的第一次认知重启,并且这还不是全部。

  3. 认知重启通向世界模拟器,这意味着「原力觉醒」:大模型里的母模型,未来根科技

  Sora 还不是世界模拟器,但是表现出了这样的潜力。它没有产生终极答案,但是告诉了业者,隐约可行的方向在哪里。

  尽管Sora 还远不足以成为通用世界模拟器,但是 Sora 证明 Token(1.0)、Patch(2.0)之后,物理世界的X(3.0)表征是可行的。从文本语义、视觉到物理,是大模型原理的三次飞跃,也是走向真正的通用(其实首先基于多领域专业模拟器)世界模拟器的进阶路径。

  Sora 还不是物理引擎,但是未来可以泛化为物理引擎。

  Patch 还只是 ((x,y,z), t )、关系、色彩、内容信息意义上的视觉信息元,并不是神经元,但是未来可以进化为数字神经元。Transformer 大模型无论如何都不可能具备人脑一般的量子能力,但是高维全局注意力机制局部具备拟合量子态的潜力。

  因为 AI 对智能进行表征的底层逻辑是数学的,相对人脑的直觉、模糊、随机、潜意识等特征,大模型的机械与恍惚同在。但是一如判断准确率从0、30%、50%、80%、90% 以上一路走来,原理不断升维,时空不断转换,面向 AGI 的进化表现为不断接近高可用性、接近乃至超越人类智能的渐进过程。

  但 AGI 不是终点,也不是圣杯,世界模拟器才是。

  Sora 有助于实现 AGI,但 Sora 开启的漫漫征途的主要指向并不是 AGI,而是世界模拟器。AGI 的定义有多种,经典意义上的 AGI 是类 GPT 在数据、算力、算法进化到一定程度之后,在知识、内容、程序等工作与创作方面,表现出总体达到局部超越人类智能的能力。

  AGI 依然是工具,能够支持具身智能,但不是具身智能。AGI 并不真正具备内生、自主能力,更多时候只是为人所用的工具。

  说到这一点,一定有必要厘清智能发展的不同形态和不同阶段,由此才能看清 GPT4、Sora、AGI、世界模拟器所处的生态方位和时空节点。

  当我们在说智能的时候,其实同时有三种智能。Smart 意义上的功能智能,昔日 AI 意义上的计算感知智能,也就是弱(的)智能(AI1.0),2020 年以来(尤其 2023 年被视为正式开端)认知智能意义上的强智能(AI2.0)。

  目前自动驾驶、机器人等智能水准严格意义上讲处于 AI1.0 也就是弱智能范畴。强智能(AI2.0)对智能汽车、机器人等智能设备的二次赋能,是正在到来的趋势。

  这也是尽管国内人工智能发展如火如荼,但实质存在代差的原因。一些受不了此强彼弱的人,大呼「我们也不差」,认为 GPT 这一波是在制造威胁论。其实无须嘴硬,凡事都要先争个面子。只需实事求是,看清格局,抓住关键,迎头赶上就好。

  如何看待 Sora/GPT 的背后,还有另一个实质:有没有看到战略高地、科技龙头、智能圣杯、变革引擎、暴风眼在哪里。强 AI 就是战略高地,AI for Science 就是科技龙头,AGI 就是眼前的智能圣杯,通用与各领域专业模型就是变革引擎,世界模拟器就是未来的暴风眼。

  前面说的三种智能都还只是形态水准,并不是对智能发展的阶段区分。 我将智能发展相对划分为五个阶段:计算功能智能、计算感知智能、认知智能、内生智能(EI)、自主智能(II)。

  请注意,有一天 AI 人工智能这个提法会边缘化,因为智能不再是「人工」的。人工的 AGI 自然不是终点,智能将比我们对 AGI 的预期走得更远。这一点我在《走向第二曲线》有详细分析,此处不再赘述。

  智能变革的核心是超级智能,超级智能的具身是 AGI,AGI 是 AI2.0、认知智能的高级形态(但主要还是人工投喂人工增强的智能),AGI 是现阶段所言 AI 的高级形态,但不是 EI 内生智能和 II 自主智能。AGI 不会像某些人说的一两年內就会实现,但估计也就在 GPT6 前后。之后的阶段,属于内生智能(EI)、自主智能(II),属于世界模拟器。世界模拟器是 EI 基石,II 基准。

  超级智能是世界之脑,超级智能的母体是世界模拟器。世界模拟器是大模型里的母模型,未来科技里的根科技。

  看看大模型在工业仿真、环境气候、材料预测、蛋白质分析、分子药物、基因研究等领域已经遍地开花的强力开局,就会知道,Sora 与它们正在殊途同归:世界模拟器未来主要不是用来玩的,并不是元宇宙概念的炒资,而是科技生产力爆发点,是智能未来真正的炸裂点。

  世界模拟器,科技里的母科技,AI for Science 各领域的核心抓手,每个领域的交感、理解、复现、预测,未来世界的「CAE」仿真只是其基础特性之一。世界模拟器,是最接近智能母体的存在。

  世界模拟器意味着「原力觉醒」,创新之源,科技驱动,战略高地,不容有失。

  4. 走向世界模拟器的漫漫征途,将经历哪些阶段?

  Sora 放出的所有视频里,最具深度探讨价值的其实是那个水杯倾倒的片段。

  Sora 是如何拟合现实的,究竟是不是物理引擎,如何才能成为符合物理特性的引擎,未来又如何才能够成为世界模拟器。从中隐约可见答案。

  CV 发展初期,计算机能做到的只是杯子边缘轮廓特征提取和复现(比如 Neocognitron),再后来可以识别到这是一个水杯(比如早期 ImageNet),再后来可以「理解」水和杯子的关系(CNN&RNN),现在能够开始学习和复现水杯倾倒过程(Transformer/Sora),接下来会怎么样发展,也许只有大模型技术专家知道,也许都还在探索,并无定论。

  我只是站在用户角度进行黑箱式的透析,超级智能接下来能不能够做到这几步?

  1. 水杯倾倒的流动特症能不能完全符合物理特性,不出现目前的明显瑕疵?对应流体力学等。

  2. 水杯倾倒后能不能做到视频中的冰逐渐在水中融化(所以更感兴趣那个汉堡咬痕)?对应热力学等。

  3. 水杯倾倒后导致桌面桌布等湿化以后能不能看到水渍、水汽的光影与色彩变化(所以更感兴趣那个画布笔触)?对应光学物理等。

  4. 水杯倾倒的过程能不能生成与实景契合的声音,而不只是简单声效?对应声学物理等。

  5. 水杯倾倒的角度与力量能不能做到随机操控,产生碎裂、泼溅、蒸发等不同现象?综合以上及凝聚态物理。

  6. 水杯倾倒周围如果有电源、危化物品,能否进行场景预测、情景预现?对应电磁物理、物理化学等。

  以上都只是物理角度的简单引申,世界模拟器所需要对应到的科学领域,以及现实世界的复杂现象,甚至是目前数十个主要学科尚未能穷尽的。所以无论从过程还是领域而言,都是征途漫漫。但这才是星辰大海。

  相应的几个循序渐进的问题是:

  1. Sora 可以对 3D 图像而不是 3D 引擎生成的 2D 视频进行学习训练吗?

  2. Sora 可以从微宏观统一的尺度,对三维物体的内在性状进行学习训练吗?

  3. Sora 可以在模型原理、神经网络、节点层级对物理世界进行X(3.0)意义上的 3D 时空运动表征,并在世界虚拟器交感、理解、复现、预测四要素具备的基础上使X进化为神经元吗?

  面向世界虚拟器的进化,远不止这些问题,更不只是这些维度……

  总的来说,Sora 部分拟合了「视觉规律」,但是还没有真的理解「物理世界」。目前的 Sora 本质上还是在视觉内容世界里,更多与视频、游戏、娱乐等相关。但并不妨碍 Sora 式的大模型下一步,进入机器人、智能汽车等主要智能设备,以及成为世界模拟器。

  AI For Science 是世界模拟器的关键落地场景,而AI For Science 意义上的X(3.0)是物理世界与视觉世界的分叉点,就像 Patch(2.0)是文本世界 Token(1.0)与视觉世界的分叉点。

  数据、学习、生成、预期是 AGI 四要素,信息内容感更强。交感、理解、复现、预测,是世界模拟器四要素,母体感知现实具身感更强。世界模拟器的 Input 和 output,实质主要由机器智能系统自主完成,是具有自我强化和自主行为能力的智能。世界模拟器征途漫漫,必将通向 EI、II。

  5. 接下来的态势会怎么样?12 种情况预估

  态势1:Sora 模型并非不可复制。

  OpenAI 如果短期内不正式推出 Sora(快不了)给全球用户,其它竞争对手也会陆续发布自己的类似产品,Patches 做法早已有之,并非独门暗器。

  OpenAI 和 Google、Meta 之间只有时间差。但是中小团队的数据差、资源差、算力差造成的竞争弱势,只有原理升维才可能弥补。Pika、Runway 如果不能在原理层面完成超越,哪怕勉强能够追上 Sora 未来也是堪忧。另外,原理相似不等于效果相同,差之毫厘谬之千里。

  态势2:拚原理>拚算力,模型原理升维才是能力跃迁关键,但算力必不可少且需求继续陡增。

  Sora 对 prompt 单次响应与 output 过程的算力消耗必然远超 GPT4.0,但这并不是重点。Sora 再一次证明,拚原理的重要性远大于拚算力,算力算什么(而不是算力)才见高下。

  原理引起的格局翻覆往往就在一瞬间,今后也是,翻覆还将多次。但算力总体需求依然呈现为爆发式增长,因为要算的不再只是文本/Token,视觉/Patches 会令算力需求陡增。

  未来物理引擎、世界模拟器对各类传感的接入需要和计算需求,更会令算力吃紧。即使眼前线性地看,高质量海量数据总是优于小体量数据,参数量大总是优于参数量小,模型的深层、多阶段、反复思考总是优于单阶段,高分辨率高精度总是显著优于低精度,所以算力需求依然呈现为指数级增长。但总体而言,算力只是必要条件。

  态势3:以 Transformer 为主干的大模型依然是主要演进方向,且具有巨大潜力。

  Self-Attention 机制在电子计算的层级模拟了量子态(只是神似),消除了信息元之间的距离限制、消解了 CNN 的场域阻隔,在量子计算可用之前,是以数学、电子计算为基础的最具脑特征的智能。

  态势4:轻与重,大和小,单一与混合,始终是两种并行逻辑。

  在计算机视觉模型走向大模型、进而走向世界模拟器的漫漫征途中,视频看上去「合理」的 Sora 走的是一条更轻的捷径,操控感、立体感、前后扩展自然不够理想。

  3D 建模、粒子渲染、光线追踪从算力、设备和人工投资来说,又笨又重,但更贴近本质,且操控感更强。就像自动驾驶的两条计算机视觉路线,一个靠 CMOS 图像数据来算,一个靠雷达来对物理空间进行点云建模。

  目前只能说电影工业多了一个选择,倒还没有摧枯拉朽那么夸张。微电影、短视频倒是因此生发出无限可能。

  态势5:功能瑕疵问题反倒不是问题,并且越往世界模拟器方向走,视频生成的这些小问题越无关大局。

  时间线前后扩展、主体融合过渡、场景置换、连续性、3D 运镜、多镜头、汉堡咬痕,这些只是目前的能力,Sora 的可用性未来会更加超出预期。

  目前存在的左右腿瞬移、多指多趾、人物消失、运动变形、人穿过栅栏等 bug 多多,但是瑕不掩瑜,而且这些问题随着训练规模增加、模型不断微调优化,必然迎刃而解。

  态势6:Sora 与 Vision Pro 的确是一对想象力组合,但是以为戴上头盔就可以念念有词的,一多半可能会失望。

  此外,VR 在向 MR 进,AR 在向 MR 退,VR 以后只是 MR 的一个功能,MR 是产业科技目前能够到的交叉点,最难突破的 AR 未来才是主要形态。

  态势7:OpenAI 本身的 4 个可能与 6 个不可能。

  可能方面:成为主流 AI 开发者平台,成为最大 Store,形成数十亿用户生态,部分具身智能能力。

  不可能方面:7 万亿美元造芯,模型原理持续领先,开源开放,纵横整合产业链,成为具身智能/内生智能/自主智能,坚持初创理念不动摇不成为......

  尤其 7 万亿美元 AI 造芯那条忽悠了不少人的吊诡信息,是 WSJ 援引所谓消息人士,并不是奥特曼本人,已投 Rain 股权中的沙特基金在被美帝劝退,还和中东主权基金合计在美投资数万亿美元的大规模芯片制造?绿钱不参与的话,找够相当于美元「风投 +IPO」十几年总额的资金做 AI 芯片,要么是概念吹疯了,要么是常识缺位,要么是算数不会了。更重要的是,制造并不是 AI 计算突破重点。

  态势8:全生态转变已开始,AI 是主驱动但不是化学反应全部。

  6 个要素:感知(交互)、计算(数据)、智能(AI)、连接(网络)、协约(关系)、能量(能源)等。

  态势9:变化非线形。

  深层玩家不仅着眼算力提升,还在酝酿计算架构之变,变化不会是线性的,有可能业者讨论的未来其实是现在,而不是升维后的未来。下一步模型原理、计算架构包括芯片,都将不断有重大变化。

  态势 10:AI 原力在底层,应用只是需求牵引力。

  国内团队适合从应用着手说法没错,但过早定格一觉醒来发现楼塌了不是没有可能,还是需要有人聚焦底层之变,包括硬件底层,硬仗有人打,至少紧跟。

  态势 11:一定是云端边-大中小-PPP 混合 AI,如此战场方能展开;但不能只着眼 AI,感数算智、软硬协同、形态创新等维度交织才是完整视角,也是价值展开的关键。

  如果只是窄化为算力算法意义上的 AI,轻量化为场景需求意义上的应用,无异于互联网思维,只可能第一天就卷,只可能是 store 里的一个 GTPs、APPs,就像互联网时代曾经活成了「很厉害」的 APP 的样子;这是一场原力致胜的立体战役,最需要褪去的就是互联网思维;凡事偷轻,难堪重任;处处求简,难当多面;全生态全体系变革,仅应用不足以催化,仅算力算法数据模型意义上的 AI 不足以驱动。

  态势 12:压力陡增。

  回到老难题,中美 AI 之争,李约瑟之问和钱学森之问。说实话 GPT3.5、GPT4.0 发布之际,压力不那么大,总觉得有得一追,毕竟都还在文本、代码、图片维度。但是 Sora 一出,压力陡增。升维比想象得快。竞争和发展不是二维、线性的。真正的物理世界模拟器,已经隐约能嗅到味道,且原理隐约可见。这才是 AI 未来竞争、大模型决胜的炸裂点。

  朋友有句话说得好,当年 Alpha Go/zero 碾压人类围棋之后,事了拂衣去,一年后阿尔法 Fold 横空处世,重塑了人类对蛋白质结构认知与预测,这才叫伟大工程。Sora 也是一样,如果只以为它是 60 秒视频生成神器,被网络喷子喷成「洋人的奇技淫巧」,无用之用,可以说与业外对早期 AlphaGo 的「下棋玩具」理解有几分神似。

  但如果从大模型睁开眼睛看世界,AI 认知重启,以及潜在的世界模拟器发展方向看,这显然是正在觉醒的原力。企业如果忽视趋势,在这一史诗级的漫漫征程中落伍,会被降维打击得连亲妈都认不出来。

  AI 认知重启,超级智能点亮亿万机器之心,世界虚拟器成为母模型根科技,不是科幻,这是一个时代的序幕。

  那么,AI 认知已然重启,人类的认知重启了吗?

  作者介绍

  胡延平,DCCI 未来智库创始人,FutureLabs 未来实验室首席专家,信息社会 50 人论坛成员。《全球创新前沿科技地图》及相关研究项目主导,科技畅销书《黑科技》(2017)共同作者与出品人。

  历任《互联网周刊》总编、中国互联网协会交流发展中心主任等媒体与 NGO 职务,持续专注于前沿科技创新探索,角度专注于「从技术看产品,从产品看产业,从产业看生态」。

  1997 以来出版多部科技专著。《奔腾时代(硅谷)》(1997)作者、《数字蓝皮书》(2000)、《跨越数字鸿沟》、《第二次现代化》、《第四种力量》(2002)著者,《Google 将带来什么》(2009)译者之一。