育碧谈AIGC:15年前引入动捕曾让动画师担心失业,最终招了更多人

  ChatGPT 这样的工具唤醒了全世界对于生成型 AI 潜力的认识,如今,越来越多这样的工具正在到来。

  育碧 La Forge 执行总监 Yves Jacquier 就生成型 AI 在游戏行业带来的变革潜力分享了自己的看法,他在各个领域的技术创新、科学和研发管理方面有 20 多年的经验,比如 AI、粒子物理学、电信、生物医学以及游戏行业等等,全面的专业知识让他成为该领域真正由远见卓识的人。

  在最近接受英伟达播客采访时,Jacquier 强调,能够让计算机创作独特内容的生成型 AI 已经为游戏领域带来了变革。通过设计新关卡、角色和物品,以及生成写实图形和声音,这种尖端科技为更有沉浸感和参与感的体验带来了无数的机会。

  作为育碧 La Forge 背后的掌舵人,Jacquier 在重塑该公司学术研发策略方面扮演了重要角色,比如 2011 年的 AI 深度学习,并创建了业内首个专注于应用学术研究的首个实验室育碧 La Forge。

  Jacquier 相信,生成型 AI 将在游戏行业扮演重要的角色,并且为全世界的游戏爱好者提供无与伦比的游戏体验。

  以下是 Gamelook 听译的完整采访内容:

  生成型 AI 应该让人更强大,而不是取代人类

  Q:你作为育碧团队领导所扮演的角色是什么?你和你的团队目前在做什么、尤其是生成型 AI 方面?

  Yves Jacquier:我领导的是 La Forge,它是我们为游戏制作成立的研发中心,我们的使命是是促进基于最新学术成果的技术原型。所以我们在一些领域研究了很长时间,比如语音合成、动画、或者人脸建模等等。

  然而,过去这些技术的具体用途都是比较小众的,例如语音合成就是语音设计师的一个实验工具,动画合成也是如此。最近真正的改变是,ChatGPT 或者 Stable Diffusion、Midjourney 这样的 2D 图片生成器可以被所有人使用,所以在不需要图形技术的情况下,哪怕没有任何图形处理技巧的我也能在几秒钟内生成非常好看的图片,不过,生成有说服力和表现力的对话仍然需要特定的技巧。

  换句话说,我们如今聚焦于两个方面,对我们来说,在玩具或 demo 效果之外,什么用途对我们是最有价值的?如何将这些技术融入到我们的管线,同时以负责任何公平的方式来做?

  Q:如你所说,现在世界上大部分人都可以接触到 ChatGPT、Stable Diffusion、Midjourney 以及其他文本到图片生成器,这里有两个问题:其一,像育碧 La Forge 这样的机构使用这样的技术会比公众早多久?换句话说,你们是否有些工具是其他人可能会在六个月、一年或者两年后用到的?还是说你们用的和我们现在所接触到的东西一样?

  Yves Jacquier:我们聚焦这些话题已经很多年了,如果看我们的 YouTube 频道,你会发现我们是业内第一批创作语音到面部动画技术的团队之一,我们把它部署到了游戏之中。所以,如今并不令人惊讶的是,我们在尽一切努力辅助创作者们,这也是我们工作的核心,通过技术在游戏里实现新形式的多元化,让我们的 3D 世界更具有可信度,这是第二个方面。最后,我们还有第三个方面,就是从事帮助提升玩家的体验。

  在协助创作者方面,可以给出的案例是文本到语音,创造精彩的语音是打造更可信世界很重要的一方面,比如在不增加创作者负担的情况下,如何创造一个可信的人群?最后清晰的体验涉及很多的话题,但对我们来说很重要的一个方面是为玩家提供安全的环境,我们在努力做毒性检测(toxicity detection),这些就是我们在从事的三个方面。

  Q:当你谈到毒性(toxicity)审核,我不确定你指的是来自玩家的毒性言论或行为,还是确保 NPC 不会带给玩家具有毒性的体验?

  Yves Jacquier:目前,我们主要聚焦于聊天,我们想要确保所有人在线聊天、玩游戏处于一个安全的环境中,我们必须承认,如今半数的玩家都遇到过游戏内不当行为,只有几个人就能影响很多玩家的体验。

  但是,有了生成型 AI,或许对于内容审核有很大的需求。主要分为两个方面:首先,你要确保内部生成的内容是符合版权要求的,可能创作者并非有意为之,但如果要创造一个千人群体,那么久有可能偶尔会出现明星脸或者类似的情况。所以我认为,未来的生成型 AI 需要解决的是,如何让它避免一些你不希望出现在游戏里的东西。除了版权之外,还有很多的考量,比如《Roblox》那样的游戏用户年龄也需要考虑。

  Q:在你看来,如今生成型 AI 协助创作者最好的方式是什么?

  Yves Jacquier:这是个很大的话题,因为它取决于部署的权重是什么,我认为最好的方式是让终端用户参与到设计过程中来,因为这类技术带来了很多复杂的问题:首先,什么是合法的、公平的用途?什么技术会以什么样的节奏被淘汰?我觉得现在没有人对此有一个清晰的答案,所以让人类参与其中是最基础的要求。

  我觉得这么做有三个原因,第一也是最重要的是,技术应该是增强人们或者技术而非取代;其次,很多生成型 AI 得到的是同样的结果,从纯商业角度来说,如果你想做出差异化,就需要做更多,而且只有人类创意才能做到;第三,我们需要记住的是,尽管这些技术在一直升级,而且被越来越多的人使用,但它们依然不够成熟,我们可以看到大型语言模型(LLM)他们会以非常明确的方式说一些东西,但有时候结果依然是错的,而谷歌已经在这方面投入了 1000 亿美元。

  如果想要让这些技术并不仅仅是停留在 demo 效果阶段,人类必须参与其中,既包括技术使用,也包括共识。比如人类决定什么时候使用这些工具做什么。

  我们的一个创意总监说,现在生成型 AI 的一个巨大优势就是,他不用再做大量的基础工作,比如地图上的细节地形、或者打造大量的 NPC,他现在可以通过指令引导 AI 去完成。最近我看到一个比如,未来你可能不会再担任美术师或者作家,而是“指挥”,因为你在指挥 AI 生成所有这些你需要的元素。

  Q:你怎么看待它,育碧现在正在发生哪些事情?

  Yves Jacquier:这是个很好的问题,我觉得生成型 AI 能力很强大,但它依然是个工具,这让我想到了 15 年前我们决定部署首个动态捕捉工作室。育碧内部当时所有的动画师都以为我们试图裁掉他们,他们害怕我们想要取代动画师岗位,但实际上,当我们真正成立了动捕工作室之后,在制作比例方面反而招聘了更多的动画师,因为我们提高了动画的水准,可以打造《刺客信条》这样的开放世界。

  回想第一次使用动态捕捉,我们觉得很痛苦,因为我们找不到方法将它部署到管线当中实现两个目标,第一个是让我们的动画师更想用它,第二是以支持转变的方式来做。

  今天,从战略角度来看,我们今天所做的就像是当初那样,这些技术的目的是让我们有更可信、更好看的动画,能够适应任何类型的地形。如果要得到真正可信的世界,你需要越来越摆脱一些过去的数据,动画、物理效果…你所有的资源都必须符合新的现实。

  对于动画,它可以帮助我们创造更可信的世界,随后是所有与多元化和世界大小相关的一切。比如语音合成,如今一个 3A 游戏通常会有超过 1000 行以上的对话,这还只是英语版本,人们有一个误解,就是整个世界会变得越来越大,但除此之外,这个世界还会变得更多元化,比如最新的《刺客信条》,主角可以是男性也可以是女性,意味着对话直接翻倍。另一个问题是演员疲劳,如果对话突然增加太多,你很难要求他们加班去完成。

  AI 不会抢人类饭碗,反而会带来更多工作

  Q:你提到了动态捕捉,这里有一个问题,你已经从业很多年,而且涉猎过很多领域,对于生成型 AI,你认为它是会改变整个行业,还是像动态捕捉或者其他技术那样,最终为人类带来更多的工作?

  Yves Jacquier:预测未来是很难的,不过,这些服务有一个趋势,比如 Roblox 最近宣布将脚本语言打包到自然语言之中,换句话说,你只需要用英语告诉 AI,它就可以帮你将汽车颜色更换。这意味着人们会更习惯这种与复杂系统的自然交互,我看到的是没有技术的人们,也可以做出不可思议的高质量资源。

  这就带来了第二个问题,如何脱颖而出?随着这些工具更加触手可及,它会改变人们对很多方面的预期,比如 UGC 内容或化身个性化,你不会讨论 AI,你会讨论功能。因为 AI 很容易让内容量大到不可思议,让你很难脱颖而出。所以生成型 AI 最有价值的使用场景是,不仅生成简单的资源,而是可以整合资源,比如,如何组合一个完全互动和具有表达力的角色或者环境?

  这会影响所有的资源,如果我们不同时解决这些,未来就会遇到问题,我认为这种情况会不断改善。但更重要的是,我认为这也是为何它是一种具有颠覆性的方法,因为所有的资源都需要考虑,我们甚至还没有接触到潜力的表层。

  再举个例子,谷歌地图发布于 2005 年,当时它的价值并没有那么明显,它当时只是一个在地图上可以看东西的小摆件。随后,2009 年 Uber 成立,并很快颠覆了行业,我觉得在 2005 年的时候,没有人可以预测到这一点。

  Q:当你考虑使用一个新技术的时候,是否有一个测试过程?比如打造一个创意原型然后进行测试,然后确定它是否能够加入到公司的制作管线当中?

  Yves Jacquier:当然,基础上来说,我们聚焦于创意原型,更重视概念验证来测试技术,确保我们能够确定它们是否有意义,还是对我们而言行不通。所以,这里我想透露三个秘诀:首先,我们有很大的产品线和尖端的内部技术,意味着我们的创意原型有很多应用场景,或者说,是有很多的问题需要解决。这带来了很多机会,比如一个创意原型可能因为性能问题不适合《Just Dance》,但它是否能在动态捕捉管线解决问题。

  第二,我们采取了一些跨学科方法,比如我们让美术 AI 研究者、来自社会科学领域的人,一起做一个创意原型,这不仅可以提高普及率,也是带来多元化输入并消除盲点最有效的方式。

  第三,我们有很长的游戏研发历史,这意味着我们有大量的独特数据和能力打造需要的独特数据库,比如我们在 github 这样的开源平台发布过一些类似数据,包括我们的游戏资源。20 多年的代码和资源积累对于训练 AI 是很有帮助的。

  通过跨学科方式和这些优势,我们建立了一个流程,公司里的所有人都可以提出一个项目,整个过程只需要处理七个问题。这个流程可以帮我们聚焦于真正有潜力的应用,确保我们不重复造轮子。

  最后,我们形成了一个强大的风险承受文化,意味着唯一的失败,就是创意原型行不通、且我们不知道为什么,其余就是很好的学习和分享机会。听起来虽然有些绕,但从研究角度这是很有效的,因为人们被鼓励差异化思考,这会带来一些突破,比如学习动态匹配。

  但通过这样,我们也避免了公司里很多人尝试做同样的事情,我们充分利用我们的心得,比如,我们有一个创意原型失败了,但通过它得到的经验仍然可以运用到制作当中。

  Q:当你想到生成型 AI 的时候,脑海中是否会跳出一些让你觉得具有突破性的东西?或者是你觉得不好用但又不知道为什么的事情?有没有一些令你惊讶的东西?

  Yves Jacquier:是的,在语音合成领域。之前说到,我们在这个领域研究了很久,有了很多具有表现力的语音。我们都熟悉了 Siri 等语音助手,它们的品质都很高,但你不会想让它出现在一款游戏里,你想要的是一个来自远方的声音、一个有感情有态度的声音,那是让人开怀大笑的声音,但如今 Siri 还做不到。

  我们在做这些创意原型,有些时候真的很困难,我们意识到创意原型不太奏效,但我们发现另一个应用是语音转换,就是让一个人用另一个人的声音说话。实际上,我们当时在做一个文本到语音的创意原型,突然之间,2020 年疫情爆发了,工作室关了,我们正在做《刺客信条英灵殿》,我们不确定是否还能录制女主角的声音。

  此外,当时她还怀孕了,所以面临很多的风险,于是我们提出了文本到语音创意原型,来创造语音转换技术,结果非常好,到了制作的最后,我们没有用到它,但这个过程是与女演员公开透明沟通的。幸运的是我们没有使用它,但当时我发现了一些很不可思议的事情,创意言行比我想象的大很多,而且有可能拯救《刺客信条》这样的游戏发布计划。

  Q:你提到了生成型 AI 的版权等问题,最后,你对于它带来的游戏业道德问题怎么看?比如有了这个技术就不再需要写代码,还是每个公司会有各自的不同?

  Yves Jacquier:这是个很困难的问题,我没办法代表整个行业,但可以说的是,我们已经在和一些领导型对手讨论,因为我们都有同样的问题,我们都热爱我们的创作者,所以我们希望确保以正确的方式来做这件事。

  首先是法律框架,整体上是法律问题,但整体上来说,这样的立法是后置的。不过,业内仍然有些问题是需要关注的,尤其是这些生成型 AI 产出的东西到底是派生性的还是变革性的?

  简单来说,如果在音乐行业,问小样是否带来了新歌曲,还是只是纯粹处于愉悦?这部分是我们无法控制的,但可能会对我们能做和不能做的事情带来很大影响。和很多人谈话的时候,因为这个技术太具有颠覆性,他们希望这不是取代了诺基亚的 iPhone,或者取代了驾驶员的 Uber。

  在育碧,我们有一个行为准则,那就是,如何确保以人文本的方式使用这些技术、并且始终保持公平?不仅对我们的员工,也对我们的合作伙伴。我们在为配音演员和动态捕捉演员创造公平的工作环境,确保它们可以而且一直能够以此为生。

  其次,就是为我们的创作者打造特别的训练、工具,帮助他们获得新技能,我不知道这是否是最好的方法,但这是业内很多领导者都在讨论的事情。

  Q:对于未来,你对什么感到兴奋?

  Yves Jacquier:是那些我们还没有确定的东西,过去五年,生成型 AI 的使用方式都很小众,很多人都在尝试并为之加速,现在它的影响力达到了新高度,一旦连接了所有点,它可以做什么?这是令人兴奋的。

  育碧如何在这个领域,在技能管线方面成为领导者,帮助创作者们以新的方式使用这些技术,以便他们继续给我们带来惊喜,这些是真正让我觉得兴奋的。