新智元报道
作者:胡延平
编辑:好困桃子
【新智元导读】生成 60 秒逼真视频,只是未来的一个小功能,母模型根科技原力觉醒。来自未来实验室的首席专家胡延平就爆火 Sora 模型做出了深度的个人解读。
这几天反复看 Sora 的技术报告,以及各方对 Sora 的技术分析。
基本三个角度:惊呼强大功能,分析 Sora(实现)大法,评估巨大冲击。
冲击方面,主要关注点在于对影视、短视频、娱乐等领域的影响。
但是,Sora 改变 AI 认知方式,开启走向「世界模拟器」的史诗级的漫漫征途,才是未来暴风眼,真正的重点。而世界模拟器,是远比 AGI、具身智能、元宇宙更炸裂的智能未来。
Sora 技术报告最有价值、最语焉不详、最容易产生不同理解的一句话是:「通过扩大视频生成模型的规模,我们有望构建出能够模拟物理世界的通用模拟器,这无疑是一条极具前景的发展道路」。
而本文所述世界模拟器,与 Sora 目前自述以及业内理解,可能不太一样。
很显然要么是 Sora 言过其实,要么是 OpenAI 留了一手,要么是现阶段技术局限使然。
1. Sora 只是二维视觉的压缩扩散和时空表达,不是物理引擎,也不是世界模型
相比「现实不存在了」这种既乖张又夸张的表达,专业人士的意见貌似客观,但实际偏差也不小。
Sora 不是英伟达高级科学家 Jim Fan 所称的数据驱动的物理引擎、一个可学习的模拟器或世界模型,也不会像周鸿祎所言能够让 AGI 一两年内就很快实现。
从 LLM 的文本 Token/向量表征,到走向模拟器但还不是模拟器的 Patches 表达,是原理变化的核心。
技术报告在原理部分高度保留,极为简略,但其中一张图比较重要。Sora 基于 Transformer 但是对 Transformer 进行了有力进化,结合了 Difussion,Patches 是关键。
不过 Sora 怎么看都还只是二维视觉的时空表达,处处压缩,Patches 依然是图像内容关系信息,且有文本烙印,并不是物理世界规律的多维表征。世界模拟器前面加个定语——二维视觉世界模拟器,也许更准确。
三维图像是数字世界的空间构建,二维视觉其实是像素的运动变化组合。三维、二维视频都可以看上去像是「物理的」,但实质可以只是运动变化拟合了物理规律,而不是像粒子渲染、工业仿真一样进行了物理规则、内在性状的数字构建。
背后原因,如同你知道大模型输出的答案,知道大模型的计算原理,但是却像神经网络/深度学习之父 Geoffrey Hinton 和 OpenAI 前首席科学家 Ilya Sutskever 一样,其实不知道 GPT 是怎么「想」的。
Patches 所携带的像素、位置、时空信息,以及与周围 Patches 的变化、运动、关系,在 Transform 的注意力机制和 Difussion 的正反向噪声过程,经过大规模视频数据训练,具有了解构和重构一切二维视觉的能力,面向用户表现为涌现式的生成,似乎充满创造力且符合物理规律,但背后其实是 Sora「理解」了 Patches/像素的变化、运动、位置在时空意义上的关系的数学、算法表征,这些变化和表征又拟合了物理世界的某些合理性。(Patches 并非像素)
「理解」即算法,「思考」即模型。
好拗口,好抽象,好累人,但可能这就是事实。
比如,Sora 的工程师可能投喂了数千万甚至数亿条视频让大模型来学习,但是可能没有写过哪怕一行与物理性状规则有关的代码。
再比如,Sora 可能的确学习了一些 3D 引擎生成的素材,并且像当初通过 DOTA2 游戏对战来改进模型一样,引入 3D 引擎来校正模型生成视频在视觉意义上的物理运动表现,但是百分百可以肯定 Sora 目前并没有内置 3D 引擎。
Sora 让用户以为它理解了物理世界、物理规律,就像用户头戴苹果 Vision Pro 的时候以为看到了物理世界,但其实只是在屏幕上看到了携带不断变化的 RGB 色彩信息的单目 3648x3144 个像素的各种变化。
甚至图像其实并不是连续的,而是以每秒 90-96 次的帧率不断刷新,拟合人眼视觉原理,让用户产生视频是连续的错觉。一旦快速甩头,画面就会产生运动模糊。重度游戏玩家甚至能体会到画面撕裂。
视频符合物理规律,不等于视频的生成基于物理规律,更不等于生成视频的大模型本身是数据驱动的物理引擎。所谓物理,可以只是视频画面整体与局部、前后帧统一的像素级的变化规律、表征关系。
2. 即使如此,Sora 还是打开 AI 新视界大门的那个史诗级的里程碑,大模型认知重启
在对 Sora 原理的各种猜测里,华人 AI 学者谢赛宁的分析最为贴近。但是局限于技术原理的框架性拆解以及对灵活、可扩展性的强调,反倒没有道出 Sora 的突变实质——大模型认知重启。
此外,直觉谢赛宁认为 Sora 目前只有 30 亿参数的估计也过于保守。
Sora 被认为采用了以 Transformer 为主干的混合扩散模型 DIT,其中 DIT=VAE 编码器 +VIT+DDPM+VAE 解码器。
此外,Sora 还可能使用与 Google 的 Patch n‘Pack(NaVit)类似的技术,以此适应不同分辨率、持续时间和⻓宽比。
尽管在视频标注、将提示词转化为详细说明等方面,Sora 充满详实且强烈的文本色彩,但 Sora 实质上是完全基于视觉、面向视觉、以图像理解世界的大模型。
这一点和过去 GPT「文本数据元」(不是神经元)意义上的 Token 有很大不同,Patches 是碎片、补片、基本单元意义上的「视觉信息元」(也不是神经元),Sora 里的文本只是人与机器之间、机器与视频之间的「翻译者」、「说明书」。
图像、视频的信息量其实远大于文本,呈现在视觉里的现实世界更是如此。海量视频样本,已经让 Sora 建立了视觉世界的宏观/微观时空变化的基本动态关系「理解」。
如果将 Sora 连接到全球各地的机器人、智能汽车、MR 头显、智能手机等设备,借助数智之眼,大模型将能够:
-
自己「亲眼」看到、学习和了解这个世界,而不是仅仅依赖人类投喂给系统的有限文本数据,海量知识信息的「新视界」之门由此打开。
-
智能设备后接 Sora+GPT,实时感知现实,是对具身智能的有力加持,机器人等智能设备有希望获得类似人类感知现实的视觉和判断能力,看到即学习,判断即意味。尽管一开始与人类感知能力还是有较大差距,但也远非传统计算机视觉可比。
-
加之 Sora 式的大模型的 Input 和 output 本来就可以充分文本化,所以丝毫不用担心这个机器认知的视觉世界和人类的自然语言交互/体感交互会有什么问题。这是一种机器知道视觉「意义」的理解过程。
Sora 出现的最大意义,并非可以生成 60 秒、多个分镜头、主体统一的视频,而是意味着大模型由此可以「睁开眼睛」看世界,这是不亚于人类认知重启的 AI 的第一次认知重启,并且这还不是全部。
3. 认知重启通向世界模拟器,这意味着「原力觉醒」:大模型里的母模型,未来根科技
Sora 还不是世界模拟器,但是表现出了这样的潜力。它没有产生终极答案,但是告诉了业者,隐约可行的方向在哪里。
尽管Sora 还远不足以成为通用世界模拟器,但是 Sora 证明 Token(1.0)、Patch(2.0)之后,物理世界的X(3.0)表征是可行的。从文本语义、视觉到物理,是大模型原理的三次飞跃,也是走向真正的通用(其实首先基于多领域专业模拟器)世界模拟器的进阶路径。
Sora 还不是物理引擎,但是未来可以泛化为物理引擎。
Patch 还只是 ((x,y,z), t )、关系、色彩、内容信息意义上的视觉信息元,并不是神经元,但是未来可以进化为数字神经元。Transformer 大模型无论如何都不可能具备人脑一般的量子能力,但是高维全局注意力机制局部具备拟合量子态的潜力。
因为 AI 对智能进行表征的底层逻辑是数学的,相对人脑的直觉、模糊、随机、潜意识等特征,大模型的机械与恍惚同在。但是一如判断准确率从0、30%、50%、80%、90% 以上一路走来,原理不断升维,时空不断转换,面向 AGI 的进化表现为不断接近高可用性、接近乃至超越人类智能的渐进过程。
但 AGI 不是终点,也不是圣杯,世界模拟器才是。
Sora 有助于实现 AGI,但 Sora 开启的漫漫征途的主要指向并不是 AGI,而是世界模拟器。AGI 的定义有多种,经典意义上的 AGI 是类 GPT 在数据、算力、算法进化到一定程度之后,在知识、内容、程序等工作与创作方面,表现出总体达到局部超越人类智能的能力。
AGI 依然是工具,能够支持具身智能,但不是具身智能。AGI 并不真正具备内生、自主能力,更多时候只是为人所用的工具。
说到这一点,一定有必要厘清智能发展的不同形态和不同阶段,由此才能看清 GPT4、Sora、AGI、世界模拟器所处的生态方位和时空节点。
当我们在说智能的时候,其实同时有三种智能。Smart 意义上的功能智能,昔日 AI 意义上的计算感知智能,也就是弱(的)智能(AI1.0),2020 年以来(尤其 2023 年被视为正式开端)认知智能意义上的强智能(AI2.0)。
目前自动驾驶、机器人等智能水准严格意义上讲处于 AI1.0 也就是弱智能范畴。强智能(AI2.0)对智能汽车、机器人等智能设备的二次赋能,是正在到来的趋势。
这也是尽管国内人工智能发展如火如荼,但实质存在代差的原因。一些受不了此强彼弱的人,大呼「我们也不差」,认为 GPT 这一波是在制造威胁论。其实无须嘴硬,凡事都要先争个面子。只需实事求是,看清格局,抓住关键,迎头赶上就好。
如何看待 Sora/GPT 的背后,还有另一个实质:有没有看到战略高地、科技龙头、智能圣杯、变革引擎、暴风眼在哪里。强 AI 就是战略高地,AI for Science 就是科技龙头,AGI 就是眼前的智能圣杯,通用与各领域专业模型就是变革引擎,世界模拟器就是未来的暴风眼。
前面说的三种智能都还只是形态水准,并不是对智能发展的阶段区分。 我将智能发展相对划分为五个阶段:计算功能智能、计算感知智能、认知智能、内生智能(EI)、自主智能(II)。
请注意,有一天 AI 人工智能这个提法会边缘化,因为智能不再是「人工」的。人工的 AGI 自然不是终点,智能将比我们对 AGI 的预期走得更远。这一点我在《走向第二曲线》有详细分析,此处不再赘述。
智能变革的核心是超级智能,超级智能的具身是 AGI,AGI 是 AI2.0、认知智能的高级形态(但主要还是人工投喂人工增强的智能),AGI 是现阶段所言 AI 的高级形态,但不是 EI 内生智能和 II 自主智能。AGI 不会像某些人说的一两年內就会实现,但估计也就在 GPT6 前后。之后的阶段,属于内生智能(EI)、自主智能(II),属于世界模拟器。世界模拟器是 EI 基石,II 基准。
超级智能是世界之脑,超级智能的母体是世界模拟器。世界模拟器是大模型里的母模型,未来科技里的根科技。
看看大模型在工业仿真、环境气候、材料预测、蛋白质分析、分子药物、基因研究等领域已经遍地开花的强力开局,就会知道,Sora 与它们正在殊途同归:世界模拟器未来主要不是用来玩的,并不是元宇宙概念的炒资,而是科技生产力爆发点,是智能未来真正的炸裂点。
世界模拟器,科技里的母科技,AI for Science 各领域的核心抓手,每个领域的交感、理解、复现、预测,未来世界的「CAE」仿真只是其基础特性之一。世界模拟器,是最接近智能母体的存在。
世界模拟器意味着「原力觉醒」,创新之源,科技驱动,战略高地,不容有失。
4. 走向世界模拟器的漫漫征途,将经历哪些阶段?
Sora 放出的所有视频里,最具深度探讨价值的其实是那个水杯倾倒的片段。
Sora 是如何拟合现实的,究竟是不是物理引擎,如何才能成为符合物理特性的引擎,未来又如何才能够成为世界模拟器。从中隐约可见答案。
CV 发展初期,计算机能做到的只是杯子边缘轮廓特征提取和复现(比如 Neocognitron),再后来可以识别到这是一个水杯(比如早期 ImageNet),再后来可以「理解」水和杯子的关系(CNN&RNN),现在能够开始学习和复现水杯倾倒过程(Transformer/Sora),接下来会怎么样发展,也许只有大模型技术专家知道,也许都还在探索,并无定论。
我只是站在用户角度进行黑箱式的透析,超级智能接下来能不能够做到这几步?
-
水杯倾倒的流动特症能不能完全符合物理特性,不出现目前的明显瑕疵?对应流体力学等。
-
水杯倾倒后能不能做到视频中的冰逐渐在水中融化(所以更感兴趣那个汉堡咬痕)?对应热力学等。
-
水杯倾倒后导致桌面桌布等湿化以后能不能看到水渍、水汽的光影与色彩变化(所以更感兴趣那个画布笔触)?对应光学物理等。
-
水杯倾倒的过程能不能生成与实景契合的声音,而不只是简单声效?对应声学物理等。
-
水杯倾倒的角度与力量能不能做到随机操控,产生碎裂、泼溅、蒸发等不同现象?综合以上及凝聚态物理。
-
水杯倾倒周围如果有电源、危化物品,能否进行场景预测、情景预现?对应电磁物理、物理化学等。
以上都只是物理角度的简单引申,世界模拟器所需要对应到的科学领域,以及现实世界的复杂现象,甚至是目前数十个主要学科尚未能穷尽的。所以无论从过程还是领域而言,都是征途漫漫。但这才是星辰大海。
相应的几个循序渐进的问题是:
-
Sora 可以对 3D 图像而不是 3D 引擎生成的 2D 视频进行学习训练吗?
-
Sora 可以从微宏观统一的尺度,对三维物体的内在性状进行学习训练吗?
-
Sora 可以在模型原理、神经网络、节点层级对物理世界进行X(3.0)意义上的 3D 时空运动表征,并在世界虚拟器交感、理解、复现、预测四要素具备的基础上使X进化为神经元吗?
面向世界虚拟器的进化,远不止这些问题,更不只是这些维度……
总的来说,Sora 部分拟合了「视觉规律」,但是还没有真的理解「物理世界」。目前的 Sora 本质上还是在视觉内容世界里,更多与视频、游戏、娱乐等相关。但并不妨碍 Sora 式的大模型下一步,进入机器人、智能汽车等主要智能设备,以及成为世界模拟器。
AI For Science 是世界模拟器的关键落地场景,而AI For Science 意义上的X(3.0)是物理世界与视觉世界的分叉点,就像 Patch(2.0)是文本世界 Token(1.0)与视觉世界的分叉点。
数据、学习、生成、预期是 AGI 四要素,信息内容感更强。交感、理解、复现、预测,是世界模拟器四要素,母体感知现实具身感更强。世界模拟器的 Input 和 output,实质主要由机器智能系统自主完成,是具有自我强化和自主行为能力的智能。世界模拟器征途漫漫,必将通向 EI、II。
5. 接下来的态势会怎么样?12 种情况预估
态势1:Sora 模型并非不可复制。
OpenAI 如果短期内不正式推出 Sora(快不了)给全球用户,其它竞争对手也会陆续发布自己的类似产品,Patches 做法早已有之,并非独门暗器。
OpenAI 和 Google、Meta 之间只有时间差。但是中小团队的数据差、资源差、算力差造成的竞争弱势,只有原理升维才可能弥补。Pika、Runway 如果不能在原理层面完成超越,哪怕勉强能够追上 Sora 未来也是堪忧。另外,原理相似不等于效果相同,差之毫厘谬之千里。
态势2:拚原理>拚算力,模型原理升维才是能力跃迁关键,但算力必不可少且需求继续陡增。
Sora 对 prompt 单次响应与 output 过程的算力消耗必然远超 GPT4.0,但这并不是重点。Sora 再一次证明,拚原理的重要性远大于拚算力,算力算什么(而不是算力)才见高下。
原理引起的格局翻覆往往就在一瞬间,今后也是,翻覆还将多次。但算力总体需求依然呈现为爆发式增长,因为要算的不再只是文本/Token,视觉/Patches 会令算力需求陡增。
未来物理引擎、世界模拟器对各类传感的接入需要和计算需求,更会令算力吃紧。即使眼前线性地看,高质量海量数据总是优于小体量数据,参数量大总是优于参数量小,模型的深层、多阶段、反复思考总是优于单阶段,高分辨率高精度总是显著优于低精度,所以算力需求依然呈现为指数级增长。但总体而言,算力只是必要条件。
态势3:以 Transformer 为主干的大模型依然是主要演进方向,且具有巨大潜力。
Self-Attention 机制在电子计算的层级模拟了量子态(只是神似),消除了信息元之间的距离限制、消解了 CNN 的场域阻隔,在量子计算可用之前,是以数学、电子计算为基础的最具脑特征的智能。
态势4:轻与重,大和小,单一与混合,始终是两种并行逻辑。
在计算机视觉模型走向大模型、进而走向世界模拟器的漫漫征途中,视频看上去「合理」的 Sora 走的是一条更轻的捷径,操控感、立体感、前后扩展自然不够理想。
3D 建模、粒子渲染、光线追踪从算力、设备和人工投资来说,又笨又重,但更贴近本质,且操控感更强。就像自动驾驶的两条计算机视觉路线,一个靠 CMOS 图像数据来算,一个靠雷达来对物理空间进行点云建模。
目前只能说电影工业多了一个选择,倒还没有摧枯拉朽那么夸张。微电影、短视频倒是因此生发出无限可能。
态势5:功能瑕疵问题反倒不是问题,并且越往世界模拟器方向走,视频生成的这些小问题越无关大局。
时间线前后扩展、主体融合过渡、场景置换、连续性、3D 运镜、多镜头、汉堡咬痕,这些只是目前的能力,Sora 的可用性未来会更加超出预期。
目前存在的左右腿瞬移、多指多趾、人物消失、运动变形、人穿过栅栏等 bug 多多,但是瑕不掩瑜,而且这些问题随着训练规模增加、模型不断微调优化,必然迎刃而解。
态势6:Sora 与 Vision Pro 的确是一对想象力组合,但是以为戴上头盔就可以念念有词的,一多半可能会失望。
此外,VR 在向 MR 进,AR 在向 MR 退,VR 以后只是 MR 的一个功能,MR 是产业科技目前能够到的交叉点,最难突破的 AR 未来才是主要形态。
态势7:OpenAI 本身的 4 个可能与 6 个不可能。
可能方面:成为主流 AI 开发者平台,成为最大 Store,形成数十亿用户生态,部分具身智能能力。
不可能方面:7 万亿美元造芯,模型原理持续领先,开源开放,纵横整合产业链,成为具身智能/内生智能/自主智能,坚持初创理念不动摇不成为......
尤其 7 万亿美元 AI 造芯那条忽悠了不少人的吊诡信息,是 WSJ 援引所谓消息人士,并不是奥特曼本人,已投 Rain 股权中的沙特基金在被美帝劝退,还和中东主权基金合计在美投资数万亿美元的大规模芯片制造?绿钱不参与的话,找够相当于美元「风投 +IPO」十几年总额的资金做 AI 芯片,要么是概念吹疯了,要么是常识缺位,要么是算数不会了。更重要的是,制造并不是 AI 计算突破重点。
态势8:全生态转变已开始,AI 是主驱动但不是化学反应全部。
6 个要素:感知(交互)、计算(数据)、智能(AI)、连接(网络)、协约(关系)、能量(能源)等。
态势9:变化非线形。
深层玩家不仅着眼算力提升,还在酝酿计算架构之变,变化不会是线性的,有可能业者讨论的未来其实是现在,而不是升维后的未来。下一步模型原理、计算架构包括芯片,都将不断有重大变化。
态势 10:AI 原力在底层,应用只是需求牵引力。
国内团队适合从应用着手说法没错,但过早定格一觉醒来发现楼塌了不是没有可能,还是需要有人聚焦底层之变,包括硬件底层,硬仗有人打,至少紧跟。
态势 11:一定是云端边-大中小-PPP 混合 AI,如此战场方能展开;但不能只着眼 AI,感数算智、软硬协同、形态创新等维度交织才是完整视角,也是价值展开的关键。
如果只是窄化为算力算法意义上的 AI,轻量化为场景需求意义上的应用,无异于互联网思维,只可能第一天就卷,只可能是 store 里的一个 GTPs、APPs,就像互联网时代曾经活成了「很厉害」的 APP 的样子;这是一场原力致胜的立体战役,最需要褪去的就是互联网思维;凡事偷轻,难堪重任;处处求简,难当多面;全生态全体系变革,仅应用不足以催化,仅算力算法数据模型意义上的 AI 不足以驱动。
态势 12:压力陡增。
回到老难题,中美 AI 之争,李约瑟之问和钱学森之问。说实话 GPT3.5、GPT4.0 发布之际,压力不那么大,总觉得有得一追,毕竟都还在文本、代码、图片维度。但是 Sora 一出,压力陡增。升维比想象得快。竞争和发展不是二维、线性的。真正的物理世界模拟器,已经隐约能嗅到味道,且原理隐约可见。这才是 AI 未来竞争、大模型决胜的炸裂点。
朋友有句话说得好,当年 Alpha Go/zero 碾压人类围棋之后,事了拂衣去,一年后阿尔法 Fold 横空处世,重塑了人类对蛋白质结构认知与预测,这才叫伟大工程。Sora 也是一样,如果只以为它是 60 秒视频生成神器,被网络喷子喷成「洋人的奇技淫巧」,无用之用,可以说与业外对早期 AlphaGo 的「下棋玩具」理解有几分神似。
但如果从大模型睁开眼睛看世界,AI 认知重启,以及潜在的世界模拟器发展方向看,这显然是正在觉醒的原力。企业如果忽视趋势,在这一史诗级的漫漫征程中落伍,会被降维打击得连亲妈都认不出来。
AI 认知重启,超级智能点亮亿万机器之心,世界虚拟器成为母模型根科技,不是科幻,这是一个时代的序幕。
那么,AI 认知已然重启,人类的认知重启了吗?
作者介绍
胡延平,DCCI 未来智库创始人,FutureLabs 未来实验室首席专家,信息社会 50 人论坛成员。《全球创新前沿科技地图》及相关研究项目主导,科技畅销书《黑科技》(2017)共同作者与出品人。
历任《互联网周刊》总编、中国互联网协会交流发展中心主任等媒体与 NGO 职务,持续专注于前沿科技创新探索,角度专注于「从技术看产品,从产品看产业,从产业看生态」。
1997 以来出版多部科技专著。《奔腾时代(硅谷)》(1997)作者、《数字蓝皮书》(2000)、《跨越数字鸿沟》、《第二次现代化》、《第四种力量》(2002)著者,《Google 将带来什么》(2009)译者之一。