对话智谱AI CEO张鹏:视频生成是AGI必经之路,超级App将在“不知不觉”中到来

  出品|网易科技《态度 AGI》对话栏目

  作者|丁广胜

  “让大家体验一下目前视频生成每人可用的前提下能做到什么程度,而不是关在实验里。”

  智谱 AICEO 张鹏说,这是发布清影(Ying)的初衷,今天,AI 视频生成再添猛将。

  清影是一个视频模型,它能干什么,一句话表述就是:只要你有好的创意(几个字到几百个字),再加上一点点耐心(30 秒),清影(Ying)就能生成 1440x960 清晰度的高精度视频。

  本次清影(Ying)底座的视频生成模型是 CogVideoX,它能将文本、时间、空间三个维度融合起来,参考了 Sora 的算法设计,它也是一个 DiT 架构,通过优化,CogVideoX 相比前代(CogVideo)推理速度提升了 6 倍。

  “我们积极在模型层面探索更高效的 scaling 方式。”张鹏表示:“随着算法、数据不断迭代,相信 Scaling Law 将继续发挥强有力作用。”

  在接受采访时,张鹏谦虚的说到,清影(Ying)上线,主要是阶段性成果,还不完美。他坦言,“我们和世界顶级水平之间有差距。但虽然我们承认差距,但这条路还得自己走,我们在追求技术高度的同时,也同步追求技术的可普及性,这是我们的特点。”

  问及清影(Ying)是否朝着超级 App 努力,张鹏表示,所谓超级 APP 它不一定是大家理解的“超级”,它可能是在循序渐进、潜移默化过程当中让大家真的爱上,然后习惯使用这个工具。这件事的发生,不一定是阶梯状或者阶跃式的。

  关于 AGI 路径,他认为,视频生成并不孤立来看,它是多模态或者 AGI 多模态路径当中的一环,是 AGI 必须要走的路!

  以下为网易科技等媒体对话精选实录(作不改变原意的调整):

  问:清影(Ying)是不是有商业化考量了,后续商业化的策略是什么,比较偏向于 2C 还是 2B?

  张鹏:清影(Ying)功能上线,主要是阶段性成果,要说它多么完美还不是,还需要阶段性解决,给大家汇报一下我们的进展,让大家体验一下目前视频生成这样的事情在每人可用的前提下能做到什么程度,而不是关在实验室里或者在很小的概率上生成出什么东西。

  从现在这个阶段来说,无论是 2C 还是 2B,纯粹走向大规模商业化还比较早期。为了公平起见,除了C端和B端,还有创作者们也都能享受这个能力,所以在开放平台开放了 API,它有一定的收费,这是为了统一计费方式,但是这样的形式比较亲民。大家知道生成视频成本代价也是非常高的,稍稍收回来一点点也是比较好的事。

  问:除了智谱之外,很多企业发布了新的 AI 生成视频产品,大家都往可控性做优化,您觉得清影的优势在哪里?

  张鹏:第一是技术层面,视频本身的可控。我们认为内容生成,尤其是视频内容生成将来绝大部分情况下还是由人用语言的方式控制。所以如何从文字到语言或者一个简图到语言,这样的方式更可控,这才是真正的可控,更高层面的可控,这是技术层面的事情。

  第二个层面就是安全,生成的内容,因为视频信号里包括的内容和细节更多,要保证生成出来的东西符合你的要求,而且还保证安全,可控肯定是非常重要的一个点,所以我相信所有做视频生成团队都很重视这块内容。

  最后,生成出来这件事情如果能做到商业化应用,可控也是必要的条件,你要非常精准表达创作者意图,而且要让大家买单,可控也是非常重要的一件事。

  问:Sora 还没有开放给公众使用,智谱 AI 开放了,这背后是如何思考的?如何前期准备的?

  张鹏:首先 Sora 效果还是不错的,刚才我也提到了,今天还是一个初步的阶段性成果,还达不到像 Sora 演示出来那么好的,那么长的视频,这个还需要更多的努力。

  我们从来都坦诚承认我们和 OpenAI、和世界顶级水平之间的差距。但是,虽然我们承认之间的差距,但是走的这条路还得自己走,我们在不断用自己的方式往前追赶,让所有人可以用,所以我们是在追求技术高度的同时,也同步追求技术的可普及性和成本,这也是我们团队的特点。

  问:智谱清言或者这个新产品怎么提高活跃度,如何才能做成超级 APP、杀手级 APP?

  张鹏:这是个思路问题。我们认为清言 APP 定位是人工智能助手。助手意思是帮你解决工作学习生活当中的实际的问题,是要帮你做生产力提效,学习效率提升,工作便利的提升等等这些方面的事情。

  可能你会觉得它好像不是那么好玩,不是那么像娱乐工具一样吸引你,但我们也认为所谓超级 APP 可能它不一定是这样的“超级”,是循序渐进、在潜移默化过程当中让大家真的爱上使用、习惯上使用这个工具。

  所以可能这个改变并不一定是阶梯状或者阶跃式改变,可能是潜移默化的改变。

  我们认为,与其不断预测这件事,还不如踏踏实实一点一点做这件事。

  问:现在模型都是 DiT 架构,咱们在这方面有没有一些创新?

  张鹏:第一个算力上 DiT+Tansformer 这类方面,大家知道 Sora 也是这种方案,我们也是采用这种方案,但是因为技术细节上的公开和不透明,很多地方需要自己摸索。然后算力这件事,我不是太同意生成视频这件事情会小于文字生成这件事情,可能未来很多都会变成多模态信号融合,但以视觉信号为主,人的大脑目前还是冲击力最强的。

  比如,PPT 为什么比传统方式要更被人接受,是因为有更主观的视觉信号,把文字转换成结构化的信息,那未来就会是视频的形式,所有内容都转成视觉形式,没有所谓的 PPT,这有待大家一起探讨。

  问:智谱做视频生成,是不是只是在整个模型矩阵中的一部分,还是说未来希望让它能够独立形成商业闭环?

  张鹏:视频生成并不孤立来看,是放到整个技术和产品发展路线当中来看,我们认为它是多模态或者 AGI 多模态路径当中的一环。

  我们认为它是 AGI 里必须要走的路径,从产品角度来讲会不会单独成为一个单独的产品去商业化落地,我觉得这是肯定的,只要市场有需求,作为一个公司就应该做商业化的事情,这是两件事。

  问:文生视频技术对影视行业有哪些改变?智谱和 bilibili 和华策都有合作,会不会出现 AI 取代长视频拍摄的情况?

  张鹏:从技术发展角度来说大家认为这是很好的事情,是很重要的方向,对影视行业的变化是有积极的意义。但是目前来讲,用来做一些辅助的工作是可以的,甚至做一些小规模的创作,但真正要达到改变电影的制作等,这些更高要求的事情可能还得有一段路去走。

  问:智谱 AI 今年的重点是落地产业,那现在布局包括B端C端和多模态,资金包括您的精力如何分配?

  张鹏:确实做大模型这件事太烧钱了,而且确实也面临市场上的需求,你要商业化落地,所以我们是分层次去做。最基础的技术突破创新是我们消耗资源,消耗算力方面是最大的部分,商业化层面是在这个基础之上推进的,但商业化这个事情在我们看来还是根源于你的技术创新和驱动做这件事,我们不太希望说研究是一张皮,商业化,我们的产品,服务客户是另外一张皮,这样的割裂对企业来讲会面临一个问题,就是怎么样分配资源,我们希望是贯通的,商业化过程当中,服务客户过程当中就是以我们的技术和产品核心能力驱动的,客户需求和反馈是我们技术往前创新突破和迈进的驱动力,让两者比较好的闭环,我们努力做到这样的事情。

  记者:清影(Ying)当下有没有绑定的种子用户画像和重点关注的场景?

  张鹏:像线上电商营销、媒体的需求等,包括社交上的短视频等需求,主要是这些比较旺盛,但是我相信肯定不仅止于这些客户。

  问:未来从文本模型到视频生成模型、多模态模型以后,传统程序员在开源多模态模型开发中会扮演什么角色?

  张鹏:文本模型相对于视频多模态模型先跑了一段时间,现在这个模式是未来视频或者多模态也会往这个方向走,模式也类似,开发者社区里很多人在做技术建设,风格化等一些事情,这些事情都是开源社区充满热情的一些人做的事情,慢慢会积累成一定的套路,通过的方法论都会迁移到多模态的模型上。

  记者:Sora 作为视频生成模型出来,还提出来一个“世界模型”,智谱 AI 有没有对世界模型和物理世界的研究?

  张鹏:很多的讨论还没有定论。我们的观点和 OpenAI 比较相近,对于人的大脑来说,或者人对世界的认知,除了语言以外,视觉、听觉、嗅觉各种各样的感官是综合在一起的,人为什么看似学习的速度、效率没有计算机那么快,但是人的智能比计算机高,就是在于人的大脑的学习过程会远比现在的更复杂,不同模态之间信号的互相验证和交叉。所谓世界模型的路径上,跨模态是非常重要的事情,一步一步来吧。

  记者:你们是从什么时候开始做清影(Ying)的,团队规模、产品研发投入是什么样?

  张鹏:从 2021 年开始就布局这件事,这个过程当中也不断积累其他相关的东西。我们认为本身做大模型这件事最终目标想要实现 AGI,本质上还是在于如何对现实世界里的信号、数据进行提炼、压缩、学习的过程,这个事情可能语言是密度最高的,相对来说比较容易,而且是人机交互当中非常重要的环节。然后,语言模型转去做多模态模型,我认为,单模态的建模,语言模态的建模,跨模态的建模,最终会走向本质的物理世界统一的表示,大家追求的是同一个真理,只是走不同的路而已,可能是这样一个结局。

  关于《态度 AGI》

  网易科技重磅推出系列对话栏目《态度 AGI》。过去三年,AI 变革风起云涌,全球科技秩序正在重构,通往 AGI 的道路或许正在悄然临近。本栏目以 AGI 为题,将对话 100 位 AI 专家、企业家、投资人,试图拨开云雾,与大家一道见证 AGI 时代的到来。第八期对话智谱 AICEO 张鹏。