周鸿祎:Sora的问世给行业警醒,中美在 AI 领域有巨大差距

  钛媒体 App 获悉,全国政协委员、360 集团创始人周鸿祎在 2 月 23 日的一场活动中重点回应外界聚焦的 AI(人工智能)焦点话题。

  周鸿祎表示,和美国相比,中国在 AI 技术上存在差距是客观事实。

  “我说中美有差距,我一直坚持这么说,看到差距才知道怎么去迎头赶上,如果你都不承认差距,我们早就遥遥领先。我们领先的都很过分了。在刷榜的成绩里,国产大模型基本垄断了 Top1 到 Top10,GPT-4 都被刷到 10 名开外去了。但是 Sora 的问世还是给了我们一桶清醒的冷水。”周鸿祎称。

  不过,周鸿祎也提到,中美在 AI 上的差距主要体现在方向上,一旦方向正确,国内公司马上就会迎头赶上。无论是 Sora 采用的 Transformer 模型,还是 Sora 本身,本质都是软件,“现在的落后,我觉得大概一到两年就能解决。”

  谈及最近深陷争议的“AI 带课网红”李一舟在周鸿祎看来,人们确实需要 AI 科普教育,“他犯了一个很大错误,就是不该收费。”周鸿祎透露,自己将在不久后推出免费的 AI 课程,希望能用最粗浅的语言解释最高深的技术,为大家做好 AI 科普。他具体在 2 月 29 日公布相关事宜。

  “AI 科普很关键,大家虽然都在谈 AI,实际对 AI 充满恐惧,认为 AI 会带来大规模失业,实际上,AI 是人类最好的朋友。”周鸿祎谈到,目前整个大模型赛道还没开始挣钱,现在唯一能赚钱的就是“英伟达”,除此之外微软、OpenAI 都是在赔钱。

  “按照颠覆式创新的思路,一个颠覆式创新的东西出来并不是完美的,它有很大的缺点,它最大的价值是降低了使用的门槛。”周鸿祎预测,大模型未来的红利期至少还有十年。

  周鸿祎强调,AI 大模型绝对是一场工业级别的革命。“这才刚刚开始,如果每个人都赚了很多钱了,就跟今天互联网公司很赚钱一样,这个行业就会‘成熟’了。”

  以下是周鸿祎此次回应关于 AI 的部分内容整理:

  问:请问您是如何看待 Sora 的?它对行业的影响会有多大?是否还会出现类似于之前百模大战的竞争格局,您是怎么看的?

  周鸿祎(以下简称周总):Sora 的技术原理国外讨论的也非常多。像今天 stable diffusion 发了一个类似架构开源的东西。我经常讲,人家一开源,我们科技就进步。所以,再往下,国内可能在原始创新从零到一做的弱一点,但一旦 OpenAI 宣布了技术方向,宣布了产品,我认为国内的模仿很快会跟上。所以,肯定又有很多家,做出类似的文生视频类似的工具,我觉得会出现你说的百模大战的这种情况。

  问:最近关于 AI 培训这块的舆论和争议比较大,不知道您怎么看?您觉得这个行业如何规范?

  周总:有两点我是肯定的。

  第一,AI 的科普在中国变得非常关键。因为我接触很多人,大家虽然在谈 AI,实际上大家对 AI 是有恐惧的,这种恐惧被网上一些号给带节奏,觉得 AI 会导致大规模失业,AI 会带来行业的崩溃。你去用一用 AI 就知道说,AI 是人类有史以来发明的人类最好的朋友,也是最好的工具,它可以让我们很多人解锁技能,可以让我们变得。比如我过去不会画画的,或者我过去不可能去做导演拍视频的,我可以解锁这个能力。所以,特别对年轻人来讲,AI 更是让你从一个资历非常浅的人,马上可以跟那些有经验的人站在同一个起跑线上。

  第二,我一直认为,AI 并不会带来行业的崩溃,或者是让哪个行业(被)颠覆掉,它实际上会给这个行业,比如对短视频行业、影视工业、广告业带来正向的推动,只有那些不用 AI 的人会被用 AI 的人淘汰。

  但是很多人说,你讲这些道理没有用,现在网上只要立个摄像头,装模作样的在摄像头前面讲一番话包括我本人也是,就会有很多人信以为真,大家也确认不了谁讲的是对的,谁讲的是错的,所以,我认为最重要的是,AI 一定要自己去用,一定要去缩小。包括我跟很多企业的老板也讲,企业里面为什么要通过一个含 AI 量的概念。企业里面从上到下,从内到外都要去用 AI 的东西,用了才知道它的长短在哪里,它的边界在哪里,它的优点是什么,它的不足是什么,避免 AI 恐惧症或者 AI 万能论,这两个论点都是不对的。

  大家用了 AI 之后,对 AI 有一个科普,才能更好的知道怎样去拥抱 AI。所以,我觉得搞 AI 科普教育是对的。

  大家需要科普教育,所以我认为 AI 的科普教育是非常重要的,但我认为他犯了两个错误:第一:他应该免费;二、还有他背后没有自己 AI 的产品,好像是把很多国外的产品做了套壳,这个我就不评价了,这样做肯定是有问题的。

  所以,我最近在思考,我准备开一个免费的 AI 课,大家觉得我讲课行吗?但是我肯定不敢收费了。

  问:我们想让您多解释一下,我们该如何理解这样的差距,或者差距加大背后的核心原因是什么?

  周总:第一,我说中美有差距,我一直坚持这么说,看到差距才知道怎么去迎头赶上,如果你都不承认差距,我们早就遥遥领先,我们领先的都很过分了,你要天天这么觉得,不是有的公司曾经准确的预言什么时候超过 GPT4。大家做个大模型就去刷榜,刷榜的游戏你们都知道,把那个考题预先训一遍。当然在刷榜的成绩里,国产大模型基本可以垄断 Top1 到 Top10,GPT4 都被刷到 10 名开外去了,但是,Sora 的问世还是给了我们一桶清醒的冷水,让人看看还是有点差距。

  第二,我觉得 GPT 手里有些秘密武器没有亮出来。在去年 OpenAI“宫斗”的时候他们就争论了半天,现在 GPT5 已经在蓄势待发了,GPT-5 发没发的问题完全取决于奥特曼的心情和他的节奏感。奥特曼什么时候发呢?当 Google 要做什么事情的时候,或者当 META 要做什么事情的时候他就会发一个东西。所以,考虑到他们对 AGI 的信心,我认为在人工智能的原创方面上,我们跟他们的差距主要在原创方向上。

  大家知道,搞技术最难的是找到原创方向。原来人工智能、深度学习、神经网络,我稍微感慨一点,你们爱听不听。包括 META 的杨立昆 (Yann LeCun)在拼命攻击 Sora、攻击 GPT、攻击 Transformer 模型。

  其实,Transformer 模型不是 OpenAI 发明的,但是 OpenAI 是第一个选择了一种新的用法,就是在里面无限地加参数的大小,加注意力的连接数目,加神经网络的层数,也就是说他们相信一种叫做暴力美学,就是只要是大力出奇迹,所以,很多的跟 Transformer 当时一起竞争的模型,像 T5、BERT,大家在小数据、小参数情况下的性能能力,Transformer 都不是最好的,但是只要加大参数之后,只有 Transformer 是能支持无限的加大规模。所以,到目前来看 Transformer 这套模型至少被验证了,是目前效果最好的。

  所以,大家听明白这一点吗?这个方向绝对是正确的。OpenAI 走对了方向。

  其次,Transformer 是把文本,文本是一个一维的数据,一个单词在另一个单词的前后,只有前后关系。处理图片他们现在也是用类似的方法,图片是二维的,一个像素,有X、Y轴的关系。视频是 3D 的数据,为什么呢?一个色块除了有在图片上的位置之外,它有按照时间移动的关系或者按照时间变形的关系,所以,这次 Sora 的出现在技术上有个巨大的成果,OpenAI 用 Transformer 架构成功实现了对各种各样的文字、图片、声音还有视频的归一化的处理,而且再加上 Transformer 本身对语义的了解,对知识的理解,所以,它这次能做出 Sora 是把 GPT 的能力融在里面了。它还做了一个文生图的东西叫做 DALLE,把 DALLE 的能力也融在里面了,所以它就比 Pika、或者 Runway 这种只是利用 Diffusion 模型做像素的复制这种效果要好很多。所以,Transformer 目前全世界都在跟这个架构,这次处理视频怎么做呢?最早大家也不知道该用什么架构做,有的人是用 Diffusion 做,就是 Pika、Runway 这种概念,就是把动画看成是多帧图片,把一张张图画出来,但是它没有用 Transformer 模型来做。所以,在这种方向性的创新上,OpenAI 做得非常好,我觉得差距主要在这里面。

  我刚才啰里八嗦讲了点技术细节。第一,我们和别人的差距主要在方向感上,一旦方向感确定,中国公司的学习能力和模仿能力会很快,而且你可以想象,马上就会有人去挖 Sora 团队的那些人,这些人中有些人会出来创业,比如同行会发布开源的东西,会发布一些公开的论文,所以,这里面很多方法很快都会泄露出来或者分享出来,对中国团队来说去跟进,不是一个很难的问题。但是 Sora 让我觉得最震撼的是说,它产生视频是一个副产品,它在做这个过程中突然发现说,通过对很多视频材料的学习,不仅学到了如何去绘出图案,最重要的它要绘出真实的这种、符合我们每个人常识的视频,它必须要了解这个世界很多元素之间的互动关系,我不知道大家理解不理解这个意思。

  所以,我再举个例子,Sora 如果开测试账号,如果能拿到之后,你们可以多替我做个实验,让 Sora 画一场篮球赛,让 Sora 画一场足球赛。如果一个人根本没有看过篮球和足球,不懂得篮球和足球轨迹不一样,得分规则不一样,它是画不出来的。比如说篮球打到篮板上会反弹不会穿过去,但篮球打到篮筐里就会垂直的落下来,篮球在地上会弹起。这些知识如果 Sora 不掌握,你可以想象一个人如果都没有看过,没有把这个常识总结下来,他要把它复现出来几乎是很困难的。

  我通过这个例子来讲,为什么 Sora 让人离 AGI 又近了一步呢?GPT 实际上是解决了机器和人之间相互理解和交互的问题,因为它理解了语言。理解了语言的时候,杨乐坤就曾经攻击,说它不理解,它只是会填空。但实际上,一旦把人的语言理解了就意味着是非常大的进步,因为语言是人类所独有的发明的东西,人类用语言可以描绘逻辑,人类用语言可以描绘这个世界的模型,人类可以用语言来描绘人类积累的知识。所以一旦把语言理解了,就意味着 AGI 的第一个难关就攻克了。

  但是光是能说话了,智能是没有太大用处的。因为它对这个世界的很多规律并不知道,比如你弄个机器人,想让机器人到冰箱里拿个西红柿炒鸡蛋,你发现训练起来就很难。因为它要知道西红柿是硬的摔不破,鸡蛋一摔就会摔破,他要知道怎么磕鸡蛋,这些知识靠文本知识是不够的,必须要像我们人类一样要见过之后才能知道。所以,这次 Sora 等于有意无意,我个人觉得对 OpenAI 来说可能也是无意中做出来的,大力出奇迹之后他发现说,他实际上通过 Sora 的训练方法让机器能够跟世界互动了。

  最后他利用 Diffusion 模型只是把他要做的视频做出来,但前面它一定是在 Transformer 模型里把这个世界的一些规律给理解了,我不知道大家理解这个意思吗?因为我做过一个比较,一个画面一只猫早上去挠主人要吃的,那个主人在床上翻身,你们看过那个吗?你们可能光注意猫和主人了,没注意那个枕头。你知道那个主人在枕头上一翻身,枕头被压皱了,枕头柔软的感觉。这个如果用计算机特效来做,这绝对是一个噩梦,你用什么函数来描述这个枕头的塌陷,来描述这个枕头的皱纹,大家就会做的不像真的。但是 Sora 有限的算力,它一定是看过床和被子、枕头类似的这种感觉,所以它把这种感觉能够重绘出来。所以,我觉得这是 Sora 最了不起的地方。

  为啥我说它最后真正的贡献是给通用机器人和自动驾驶呢?你让通用机器人和自动驾驶有了对真实世界这种交互和感知的能力,你对这个世界的理解就比理解语言又更近了一步。

  所以,这次 Sora 在 AGI 上的突破,从人类的角度来说,是了不起的突破。

  问:对于中国来说,2024 年,有没有其他的一些独特、值得拓展的优势?您怎么看待今年中国在 AI 方向的前景?

  周总:我觉得中国还是有优势的。尽管大家现在言论一边倒,老是认为,因为在原创技术上我们落后,它是一个客观事实。但是,这个落后,唯一乐观的这个落后不像光刻机和芯片差距那么大。毕竟 Transformer 模型也好,Sora 也好本质上还是软件,所以,现在这个落后的时间,我觉得大概也就是一年到两年的时间,是可以去解决的。

  但是,另一方面,你不需要等到全面赶上 GPT-4,全面赶上 Sora,我们才能去应用。所以,现在有一条主线是做 Sora 和 GPT4 这种超级通用的大模型。这是一条主线。2022 年、2023 年中国追赶的还不错,用了不到一年的时间赶上 GPT-3.5 了,我觉得还是 OK 的。

  2024 年,我觉得应该是应用之年。否则大家对 GPT 会有啥感觉?就是能写诗,能斗乐子,能解奥数题,但离工作还太远。或者能在办公方面帮我们做一些工作。Sora 大家震撼多点,是因为 Sora 比 GPT 更近一步,大家明显感觉短视频产生在影视工业、游戏行业、广告业能够做点具体的事了,但依然是一个通用的工具。我觉得 2024 年,除了这两件事之外,2024 年在企业方面在垂直领域,大模型是大有可为的。

  大模型本来要真正产生一场工业革命,大模型一定要进入到百行千业,跟很多企业的业务流程或者产品功能相结合。我们泛泛地讲做一个通用大模型超过 GPT4,真的超过 GPT4 是比较难的,但是 GPT4 是一个全才生,啥都懂,但是它不专。但如果我在某一个业务领域有独特的业务数据,我就此在一个垂直领域把大模型训练的很好,而且把大模型和企业的很多业务工具结合在一起。就像大模型不仅有脑子,而且有独特的知识,还有手跟脚,那么,我觉得在一些垂直领域大模型的能力,一方面能超过 GPT4 是完全有可能的。而且做垂直的模型,我也很赞同一个观点,它不需要做千亿、万亿的模型,它只要做百亿的模型,这样对很多企业承担的成本来说也没问题。

  如果你做企业,按照我的一个预言,大模型无处不在,企业里面将来不会只有一个超级大模型,企业里面会有多个小规模的、百亿级的大模型,每个大模型就干一个场景的加强工作。这个大模型再跟企业的业务平台结合起来,按这种模式,对现在很多企业来说大模型完全用得起,而且可以用得很好。

  所以,我们(360 公司)在网络安全方面做一个安全的垂直大模型,用的是百亿的模型训练的。因为 360 有两个优势,一是我有很多安全工具,等于用这些工具的能力给它实现了能力的增强。大模型不能只动嘴,不能只思考,它还要有手和脚。还有我们有很多专家积累的知识,360 安全大数据积累的知识,我们把这些知识全都灌到大模型里去,现在这些大模型已经完全取代了 360 的安全大脑,现在在用户那里试用,碰到 APT 攻击已经能够自动发现、自动处置、自动给用户出报告。在这一件事发现 APT 这件事上,我可以骄傲地说我们超越了 GPT4,当然你别跟人家比全面能力。

  所以,我是觉得,2024 年无论在 To c、To B 都应该出来一个具体的场景。

  问:我想问一下,在文生视频后,视频生文离我们还有多远?

  周总:这个问题问得有意思。文生视频是最难的,文生视频的过程中,必须有视频生文的技术做支撑。所以,在这次 Sora 的技术报告里,它管这个技术 caption,很多人把它翻译成字幕技术,就是视频生文和图生文的技术。OpenAI 从 Tiktok,包括从美国很多电影里搬了很多视频片段来做训练,光是给它看视频没有用,一定是要把视频打上标签,要注明,这里就需要用到图和视频生文的技术,这个技术比较容易。

  问:现在有越来越多的年轻人希望创立 AI 公司,那么您认为释放技术最大潜力的方向在哪里?

  周总:我简单说,AI 目前看有三个方向。一个方向是做大模型本身,这块我不认为年轻创业者能做,要想做就应该加入大厂去做,因为你没有足够的显卡、没有足够的算力,没有长期的投入,国外这些公司说白了现在微软 OpenAI 一年都要赔上百亿美金,投入是巨大的,显然小创业公司肯定干不了。现在这些小创业公司,我也不点名,就算融到几轮资,做了一个大模型出来又怎样呢?因为现在免费大模型已经把这个从原子弹变成了茶叶蛋了,大模型几乎是免费的。所以,这条路我认为就是你说的,我不赞同他们走。

  第二个,利用大模型的 API 在 to C 场景找一些应用,相当于用别人的,用百度、用 360、用阿里的大模型做后台,大模型相当于是一个 agent,给我提供能力的支撑,我找一些用户场景,这条路是比较可行的。但这个不是简单的套壳,套壳是你做得跟 GPT、跟 Sora、跟 Stable diffusion 做的差不多,这种套壳是没有价值的,只要大模型厂商哪天一升级套壳的东西就会死一批。比如说我举个例子,Sora 出来了,是不是做文生视频就没有价值了,不是的。Sora 只能做一分钟,但是你要做十分钟的话,比如你是不是需要有一个工程的管理,让它帮你把十分钟的东西调 Sora 做出来十段视频,最后你要把十段视频连在一起,你要配音,你要加字幕,有些地方是 Sora 的结果,有些地方是配上你自己拍的视频。只要你找到用户的场景,你后面可以调各种人工智能的强大的 API 的支撑,你还是能够做出应用级别,不要老是在核心技术上说我要去跟 Sora 去。所以,最近 Pika 说准备转型,如果它转型成功,它的人机界面比 Sora 更友好,它在 Sora 之上能够提供更复杂的视频剪辑能力都是有机会的。

  第三,我刚才反复说了好几遍的,从目前来看 GPT 真正的作用还是在提高生产力,在中国国家也在支持更多的企业做数字化,所以大模型进企业,而且用百亿的这种规模非常低的成本进企业是完全可行的,而且企业里面只要你不贪多贪大,说我给你做一个什么很宏大的大模型,而是选一个比较具体而微的场景解决问题,那么它超过 GPT4 的可能性是非常大的。但这里面就需要放下身段,因为这时候用什么场景、用什么业务一定要找到某些行业、某些专业的这种垂直业务的公司,要跟他们合作。这时候有点像你做乙方别人做甲方,对很多创业者来说是巨大的挑战,因为创业者有时候比较牛比较自我,可能不一定听得进别人的意见,他觉得我懂核心技术,但你要把核心技术用到很多传统企业里,在业务上确实要听这种传统企业的调度。

  问:大模型现在难在哪里?

  周总:第一,这个方向出来之后,国外也有两条路线的斗争,一条是以 OpenAI 的闭源,还有一条是以 META 为代表的开源,所以,开源的路线,开源的目标要打过闭源,他们会不断的去猜测闭源怎么做,会把很多东西开源出来。开源出来的好处是天底下有很多好公司还有很多大公司程序员个人会积极的在开源项目里,大家都踩着别人的基础上贡献成果,所以它的化学作用会非常明显。我现在猜测,最近在国内我找了一些大学,包括昨天回来的时候和清华的张亚勤教授,他原来是微软中国的头,也在百度当过总裁,现在到了清华当我的老师去了,我现在不是在清华念书,所以也跟他聊了聊,现在很多的技术里面用到了那些模型和算法应该都是公开的,实际上 OpenAI 最大的能力一个是找方向,一个是工程化思路非常严谨,现在就是要把这个工程化的思路探索出来。所以,大家前面学 GPT 的过程中,也是方向已经确定了,往东走毫无疑问一定能走通,但具体碰到一个槛怎么过,碰到一个山怎么翻,它也有很多具体的坑要踩,有很多具体的方法要验证,所以这个需要时间。

  第二,我的猜测对算力可能会是一个槛节。网上有些言论也不对,网上说 Sora 的参数不大,只有 30 亿参数,这个人弄错一个概念,视频的参数和文本的参数不能简单做对比,就像文本我有十万字,视频只有 640×480,但是它两个占的存储量完全不在一个数量级上,所以,第一它不仅有 30 亿参数,第二就算只有 30 亿参数,视频分析对算力的消耗应该是远远超过做一个千亿模型。所以,我觉得现在国内的显卡都被卡脖子之后,可能算力是一个问题。所以,包括 GPT,包括 Sora 为什么只能做一分钟,我在猜测,因为它和 4 秒、6 秒有本质的差别,4 秒和 6 秒是因为全部用像素生成,没有世界的知识之外,4 秒、6 秒之后的图怎么样就想不出来了。所以,Sora 能解决一分钟,意味着它也能做十分钟,也能做六十分钟,但它为啥不做?我觉得也是由于算力的限制,还有成本的限制。

  所以,对国内来讲,下面如何能够把算力集中起来。

  为啥我反复做科普,Sora 如果仅仅是一个文生视频的工具,我们落后就落后了,不就我们广告落后点,不就我们电影拍得慢一点嘛,这些落后都不会给大国竞争带来问题,不就对娱乐业带来影响。但实际上这件事预示着 AGI 的一个关键节点,所以,这件事对国家是挺重要的。

  问:对于大模型的红利期,您的判断何时能出现?

  周总:我认为大模型的红利还没开始,现在唯一能赚钱的就是英伟达,国外最挣钱的是英伟达,除了英伟达之后国外包括微软也不挣钱,微软每年在赔钱,OpenAI 也在赔钱,所以还没有进入到红利期。我估计亚马逊会挣钱,云厂商和硬件厂商肯定率先挣钱,但是我觉得如果能场景化了,2023 年、2024 年在一些场景化上可能能够看到这种挣钱的机会,所以,大模型的红利,这是一场工业革命级别的革命,未来的红利期至少有十年以上。

  这个红利会非常长,至少十年,现在大家还没赚到钱,除了英伟达赚到钱了,大家还没人赚到钱,这表示刚刚开始,如果每个人都赚了很多钱了,就跟今天互联网公司很赚钱一样,这个行业就已经成熟了。