启元世界CEO袁泉:能力涌现不只与模型大小相关

  衡宇发自凹非寺

  量子位公众号 QbitAI

  ChatGPT 和 GPT-4 引发全球地震,很多人都在思考一个问题:OpenAI 的成功路径是什么?

  在中国 AIGC 产业峰会现场,启元世界创始人兼 CEO 袁泉给出了他的答案,它很好地融合了三大时代红利。

  三个红利具体如下:

  • 一是摩尔定律带来的算力红利,尤其是 GPU 的算力;
  • 二是算法的并行性带来规模可扩展的红利;
  • 三是对无标注数据探索的红利。

  2017 年,Transformer 出现后,OpenAI 很快将这三点融合在一起,推出了 GPT-1,而后 GPT-2、GPT-3……

  ChatGPT 破圈之后,人们对 AGI 有了更多的理解和认识,而国内,启元世界也于早几年起开始在 AGI 方向探索。

  启元世界成立于 2017 年。当时,几个联创在纽约听了 AlphaGo 创始人之一 David Silver 关于 AlphaGo 战胜李世石的分享,其中谈到了背后包含 DL 和 RL 的 AGI 技术,从而激发了他们对 AGI 的兴趣。

  成立后,启元世界开始沿着 AGI 路径,以游戏为切入点,逐渐从互联网、元宇宙破圈。这一次,在总结 OpenAI 的成功路径后,关于践行 AGI 这件事,袁泉在活动现场分享了启元视角下的观点。

  为了完整体现他的思考,在不改变原意的基础上,量子位对其演讲内容进行了编辑整理。

  中国 AIGC 产业峰会是由量子位主办的行业峰会,近 20 位产业代表与会讨论。线下参与观众 600+,线上收看观众近 300 万,得到了包括 CCTV2、BTV 等在内的数十家媒体的广泛报道关注。

  演讲要点:

  • ChatGPT 是站在三大技术红利之上的一个划时代产物;
  • 在特定问题空间中,几千万参数的 transformer 就能取得不错的效果;
  • 未来 5 到 10 年,AGI 的重点是元宇宙,因为元宇宙的本质是互联网丰富的语料、交互和 3D 开放世界游戏的合体;
  • 涌现能力除了与模型大小相关,还可能和问题领域的规模、AGI 是否已在这个领域充分探索,都有一定关联;
  • 将 AIGC 融入游戏制作阶段,如游戏策划,尤其是数值策划等,会优化整个游戏数值生态的平衡性。

  以下为袁泉演讲全文:

  站在三大技术红利之上的划时代产物

  ChatGPT 破圈之后,大家都在分析 OpenAI 的成功路径。这里我也谈一些启元的思考和实践。

  从技术角度看,我们觉得 ChatGPT 是站在三大技术红利之上的一个划时代产物。

  一个红利是摩尔定律带来算力红利,尤其是 GPU 的算力,可能超过摩尔定律的提升速度。

  第二大红利就是算法的并行性所带来的 scalable 的红利。2017 年底、Transformer 出现之前,DL 的算法,尤其用于做序列数据、序列决策的算法,主要以 LSTM(Long Short-Term Memory,长短期记忆网络)为主,很难并行化。

  Transformer 发布第二天,Ilya Sutskever(OpenAI 联合创始人兼首席科学家)就看到它的并行性以及长语境能带来的好处,于是研究转向以此为基础。

  第三大红利就是大数据中的未标注数据。我个人觉得,从 2016 年起,OpenAI 就对它开始看重。

  GPT-1 就是把这三点较好融合在一起的产物,GPT-2 在其基础上拓展了 10 倍,GPT-3 又拓展了 100 倍,这让业界十分吃惊。

  RL 之父、DeepMind 研究科学家 Richard Sutton 在 2019 年就提到,之前几十年,AI 发展过程走的最大的弯路,就没有用可扩展性来进行研究。

  但 OpenAI 很快把这一套践行到 GPT 系列大模型上。

  践行 AGI 发展路径的启元方式

  启元是怎么践行 AGI 发展路径的呢?

  第一个阶段,从 2017 年开始,启元用 3 年时间主要在包括《星际争霸》等游戏世界里探索 AGI

  从零开始,只用少量的、5000 局中韩高手游戏录像作为启动,在游戏中训练 AGI。

  一个比较有意思的现象是,在特定问题空间中,几千万参数的 transformer 就能取得不错的效果。基于此,启元把它优化后用到了游戏行业最主流的 7 大品类游戏中。

  第二阶段是游戏世界往互联网世界破圈。2016 年左右,OpenAI 就开始探究在互联网上是否也能够基于 DL、RL 甚至 AGI 来训练很强的智能体。

  Transformer 出来后,OpenAI 发现 scalable 的方法,这也让全世界发现把 AGI 技术用在价值大于游戏行业 100 倍的互联网里,能创造更大的商业价值和社会价值,带来很多机会。

  第三个阶段,可能也是未来 5 到 10 年的重点,就是元宇宙。我们认为元宇宙的本质是互联网丰富的语料、交互和 3D 开放世界游戏的合体。

  AIGC 如何催生元宇宙、在元宇宙中如何训练 AGI,使得它能力越来越强,能够完成更多的任务,可能也是未来非常有价值的命题。

  最后一步可能是AGI 虚实迁移,服务或者应用于现实世界中。

  启元世界的发展过程则主要分两个阶段。

  第一阶段是前三年,主要是在各类游戏中训练决策大模型为主,参数级别在几千万或者一亿以内,能够让 AI 用小样本做启动,甚至从零开始做启动,探索这一类任务的边界。

  第二阶段是从 2021 年开始,我们开始做 10 亿到 100 亿参数的语言模型。

  背后原因是我们觉得模型的参数大小其实和所解决任务空间的大小、任务下能够收集到高质量语料高度相关。在我们看来,10 亿到 100 亿规模,能和各个行业垂直应用相结合的这一类模型,还有非常大的潜力。

  在决策大模型这一块,以《星际争霸》智能体为代表,2020 年 6 月份,我们击败中国星际职业选手,出现了一个今天看来比较反常识的认知,那就是今天看到千亿参数模型可以涌现出 100 多种不同能力,在当时 4900 万参数的星际模型现场比赛时,涌现出“维京流”这样的新策略玩法,即按照人类选手的经验和规则去放基地、建造新东西的玩法,给了大家一些启发。

  AI 对战人类选手现场

  可能涌现能力除了与模型大小相关之外,和问题领域的规模,以及 AGI 是否在这个问题中已经充分探索到经验的边界,都有一定的关联。

  做启发人和陪伴人的 AGI

  基于决策大模型的技术和平台,目前启元的目标主要是做启发人和陪伴人的 AGI

  一方面在很多游戏中,比如在线用户不多时,AI 陪人互动,陪人去玩。

  第二方面我们叫“陪聊 NPC”,比如说一局游戏结束后,上一局人机合作胜负如何、战况如何,下一局怎么打,用户都可以和 AI 进行交流。

  还有一部分是将 AIGC 融入游戏制作阶段,如游戏策划,尤其是数值策划等,会优化整个游戏数值生态的平衡性,这一部分 AI 探索效率更高,也更能帮助在数值和平衡性方面进行优化。

  最近我们在《三国志战棋版》中有一个落地案例。玩法是走格子下棋,几百张地图中,山川河流不一,还有几百个武将,每一局目标也不一样,有攻城、守城、野战、援护、撤退等等。

  这里面就是启元训练的 800 万参数 transformer 智能体,可以用通用方式应对不同攻关需求,包括自己探究新的有意思的玩法。

  这就是我们觉得并且基于涌现能力,AGI 不仅能提升效率,还可能产生很多新的体验价值的原因。

  去年开始,启元另一个重点是做陪聊 NPC

  面向更广泛的虚拟世界,比如一些历史人物和二次元人物,用户也想跟他们深度互动。AGI 技术让此成为可能。

  我们基于刘备做了一个陪聊 NPC,你问刘备为什么喜欢哭?怎么看待阿斗?他都能给出基于人设、基于事实的交互和对话。

  在我们看来,AGI 技术既能用于游戏中,也可以展现出非常强的破圈能力,尤其是陪聊类、交互类 NPC,能把历史人物、虚拟人物、二次元人物等任何之前想交往但是无法接触的人,拉到你身边,进行符合人设和事实的交互和对话。

  启元世界成立时,slogan 就是“Build intelligence, Understanding worlds, Inspire people”。我们的定位是做好 AGI 的应用技术和产品研发,并要服务任何场景。

  我们初心和目标,还是希望 AGI 能更多启发人、陪伴人,在数字世界中创造更多的乐趣和价值。