被AI偷走声音的配音员,靠什么保住饭碗?

  文刺猬公社

  2020 年,网络配音员麓雨接到一笔大单,对方请他到北京线下录音,日薪 4 千,用途保密。考虑到可观的单价,入行两年的麓雨只身北上,进棚一周拿到 3 万元。

  3 年后,麓雨突然接到朋友的消息:“你听,这是不是你的声音?”

  在某当红剪辑软件的热门榜上,他的声音被用作免费的文本朗读。一位业内人士透露,像这样用途甚广的声音,绝不会是 3 万酬劳了事。麓雨这才反应过来,自己可能遇到了外包公司、欺诈合同。

  随着众多生成式 AI 产品的问世, AI 生语音已经完全能满足简单的自媒体作品创作,当年那些对声音要求低、价格低、时长短的配音单,已经很久没有出现在市面上了,取而代之的是随处能听见的:“注意看,这个男孩叫小帅,这个女孩叫小美”。平庸的人声与之相比岌岌可危。

  起风了,唯有努力生存。

  一些幸运的配音员已经建起自己的声音护城河,在他们看来,AI 也许可以保持稳定高效的输出,替代一部分简单的工作,但这并非配音的使命和终点。人类声音中永远无法被标准化、瞬息万变的复杂情感,对一个角色的理解力和创造性,才是配音这门艺术最具魅力的地方。

  “AI 能替代一部分、但绝不会取代所有配音员的存在。在对 AI 的新鲜褪去之后,声音也许仍是一门专属人类的艺术。”从业 6 年的麓雨这样说。

  本就残酷的配音行业

  大家入行的原因大致相似,绕不开“热爱”二字。在这个较小众的领域里,有句说法叫“两年练嘴,三年练口,五年出戏”:用两年时间锻炼口齿,三年能轻松对上配音人物的口型和气口,五年才能胜任主角。要足够的热爱、勇气,才能吃下这份苦,心甘情愿坐上冷板凳。

  麓雨因为喜欢主持,大学选了播音专业。他兼职做过婚礼主持、少儿口才、讲解员、艺考老师:“在所有经历中,配音是最能让我投入真情实感,发挥创造力的一件事,它很美妙,让我觉得享受。”

  人类对声音极为敏感,戴上耳机,配音员这天的心情、对内容的理解度、对雕琢声音的投入度,都能悉数传递给听众。作为忠实听众的柳山,在漫长的考研期中,全靠耽美广播剧“续命”。从书海里抬头喘口气时,她都用这种方式来放松心情。有一天,深受声音打动的她突然领悟到内心的悸动:“我想成为配音演员,希望成为创造这种声音的一份子。”

  那年生日,她面对烛光,许下这个心愿。

  紧随热爱而来的,是对现实和生存的考量。在这个竞争激烈的行业里,人脉、性别、声线、精力,都会成为左右收入的重要因素。

  麓雨是幸运的。他不仅在配音中得到了精神上的满足,也有足够物质上的反馈:

  “大二的时候,我的月收入就能达到 2 至 3 万,到了大三大四甚至能接近 5 万。”毕业时,他决定全职做配音,在那个三线城市里,通过网络和样音包(配音员的声音名片)探索自己的边界,负责从配音到拓客一切流程——“我自己就是一家公司”,他这么说。

麓雨的样音包

  那是 2020 年,遍布全国长达数月的居家拉动了短视频的内容生产,配音需求随之增多。在大家都说这个行业走下坡路的时候,它意外而短暂地出现小小的回春,麓雨趁势而上。

  国内的配音行业大致有网配和棚配两种形式。前者从业人数占多数,对于需求方和提供方而言,这种方式无论在对接和价格上都更为自由,但质量的差异和出现不可控因素的概率也很大。而棚配可以让甲方、配音导演、配音演员、录音师一起,在更专业的设备和声学环境下,共同完成作品的创作。目前国内高质量的影视剧、TVC 广告、广播剧,大多都选择棚配。

  国内录音棚大多集中在北上杭三座城市,其中,北京以发达的影视传媒行业聚集度,尤其吸引那些想要在配音行业追梦的年轻人们。北京之于配音,简直就像横店之于影视剧,只不过,在线下配音圈,想要获得哪怕是一个群演的机会都不容易。

  来自十八线城市的少年们凭一腔热血闯荡至此,为了接触到线下的录音棚,会选择先上配音班,通过课程和考核淘汰机制获得最后的“跑棚”机会。但就算开始接单,也常因为熬不过(可能是 2 至 5 年的)收入空档期而惨淡转行、离开。

  配音班的课程包括发声基本功、人物剧本分析表演、录音棚配音练习等。和同学相比,柳山作为福建人并不占优势。

  “一次课上练习,每个同学喊一嗓子,老师都会鼓励一下,说些建议。但轮到我后,老师露出了很尴尬的笑容。那个表情其实是很伤人的,意思是我想夸夸你,但是实在找不出可以夸你的地方。他只说一句:全部都错了,你下去吧。”课程结束后,柳山的努力有目共睹,但老师没有给她渴望的跑棚的机会,只是鼓励她:“如果你真的喜欢,希望你能继续坚持。”

  和配音圈的老师、同学们交流过后,她更发现,这是一个以女生为主,男生较少的行业。但角色和试音机会里,往往是男生角色居多。女生们常为了一两个角色抢破头,男生相对来说就更容易出头。在《我是特优声》中,配音演员段艺璇和钟可的表达也印证了这点。

  “在录音棚练习时,这一点也很明显:一个配音片段里,女生的台词明显比男生少,但女生人又多,所以一般女生只能录一遍过,男生就可以和很多女生搭档,练习很多遍。”

  在女性竞争本就激烈的配音场上,柳山没有出众天赋,只能更刻苦。她四次申请加入话剧社练习表演、旁听艺术学院影视剧的课程、每周保持 4 至 6 次的声音练习、在配音秀上积累了 600 多个作品,但一直没得到合适的商配机会,至今还是行业的边缘人。

  她想:“也许这个行业就是这样,肯定有很多像我一样喜欢配音的女生,她们能力比我还强,但也缺少配音机会。”

  就是这样残酷的配音修罗场,在近两年迎来了新变量:AI 语音生成技术。

  AI 来抢活儿

  市面上,需要配音的片子大致分为两种:广告、宣传片、纪录片这些要求声音比较“正”的;和影视、动漫、游戏、电视剧这些,需要角色扮演的。前者播音主持专业的学生涉足较多,后者需要一定的表演能力甚至天赋、要释放天性,对声音的可塑性、多样性、创造性有较高要求。

  能兼顾二者的配音工作者,当属语言天赋、风格、能力都很强的交叉人才。但对一般人来说,能走好一条路已经不易。更别说近几年,随着配音培训班的泛滥,一些没有接受过专业训练的新人大量涌入行业,加剧内卷。有时,甚至有 500 个人来争夺一个 200/h(行业较低的价格)的配音机会。业内人说,这里面有不少连话都不利索就莽撞来试音的人,挨个听就要花不少时间,产出效率极低。

  小白急需机会,就会在小单市场里肆意压价降价,“菜鸡互啄”是常有的事。而在这个规则和价格都不太规范、信息不透明的行业中,AI 技术的出现,更让能力一般的配音小白丧失了议价主动权,市场面临尾部的大洗牌。

  2021 年,剪映开始推出各种音色的文本朗读功能,2024 年初又推出了克隆音色功能。自媒体的配音成本正随技术的发展变得越来越低。如今的 AI 语音生成已经可以用在很多场景,像听书、视频配音,在闲鱼,你甚至可以花几块钱买到偶像对你说生日祝福的语音。

  一些更专业的软件,还能用模拟出真人的喘息、换气、哽咽感。一个有趣的变化是,从 2022 年左右开始,一些配音员接到来自甲方的要求:一边配音,一边自拍视频,以此证明是真人在工作。

  事实上,只要是对声音有些追求的配音员,都会觉察到 AI 的笨拙,不会用它砸自己的饭碗。但在 AI 生成技术的财富引力下,一些灰色操作正在侵蚀着这个行业里的人们:一些人用 AI 偷走了配音员的声音,以此替代了一些人的工作。

  就在麓雨签下“半欺诈性质“的录音合同那年,美国的配音演员 Paul Lehrman 也在零工网站上收到一个录制旁白叙述的工作。对方称语音样本仅限于学术研究,向他支付了 1200 美元的酬劳。几年过去,他开始在 YouTube 视频和播客中听到自己的声音。2024 年 5 月中旬,他和另一名有相似遭遇的配音演员 Linnea Sage 一起对 AI 公司 Lovo 提起了诉讼,要求超过 500 万美元的赔偿。

  这样的事情不只发生在普通人身上,著名演员斯嘉丽·约翰逊也遇到了类似的事情:她在拒绝 Sam Altman 请她为 Chat GPT4.0 配音的请求后,发现该公司创造了一个与她极其相似的声音,并命名为 Sky。近期,她聘请了法律顾问,随后,Open AI 暂时关闭了 Sky 的语音使用。

  “如果他们能对约翰逊女士这样做,想象一下他们会对刚起步的编剧,或者刚到好莱坞、没有像这位女演员那样履历的演员做什么。”律师贾斯汀·纳尔逊这样说。

  麓雨就是这样,他考虑到漫长的维权过程,只愤然删掉对方的联系方式以此告终。他想起 4 年前,曾在北京碰到一位配音界的前辈,对方签了 280 万字、0.5 元/字的声音收集合同,也许至今仍在履约——用自己的声音,喂养自己未来的 AI 竞对,沿着无意间签定的宿命,一步步走向终点。

  日前,全国首例“AI 生成声音人格权侵权案”一审宣判,在这一案件中,配音师的声音被 AI 化出售,获赔 25 万元,并要求被告书面赔礼道歉。这是个值得业内振奋的消息,但灰幕下的侵权行为远不止这些,能被大众看到的维权声音寥寥,资本巨头与素人,这场隐蔽的较量几乎是没有悬念的残酷。

  在大多数配音师对 AI 技术的不当使用感到愤怒,希望躲开暗地伸来的黑手时,行业里也有人主动打破了这道边界——

  4 月 24 日,沪圈知名配音演员赵乾景宣布,将声音授权给 TME 出品的 AI 有声剧《凡人修仙传》,并将其训练出多音色 AI 人声,实现“一人分饰多角”。这在业内掀起轩然大波,不少人认为,这是头部演员在砸自己饭碗,带头败坏配音界的生存环境。

  配音演员安琪在自己的账号上公开表态:“既然已经吃了时代红利,站在风口上被尊称一句大佬,不求说继续保持初心,但能不能不要忘了来时的路,不热爱这个行业了,也不要砸碗。”

  配音演员沈磊则有另一种观点:“现在所有的配音演员哪个有技术、感情?还不如让 AI 来,这个行业已经不需要新人了……现在最好的工作,就是把 AI 的技术提高,取代所有不如 AI 的配音演员。”他的话听起来很残酷,却符合资本市场的逻辑。接下来,和 AI 技术赛跑,已经成为每个配音员必须要考虑的生存发展问题。

  和“完美 AI”赛跑

  “一部作品,重要的是各具特色的声音下传递出的那些故事感和生命力。AI 可以创造出相对完美的东西,但完美并不是艺术的追求,也不会是有声书听众们的追求。”配音演员安琪这样说。

  的确,那些不完美的声音,像是某处笨拙、一些儿化音、方言味,都可以称为一个人难以复刻的标志。一个配音员的经历、心情、状态,都蕴藏在声音里,最终和声线、天赋、热情一起,融合为自己的声音名片。

  早在不知情地为 AI 录制语料之前,麓雨就已经开始有意识检视自己的作品:那些要求不高、价格一般、没有挑战性的东西,全部舍弃掉。他找到自己的声线定位和差异点,由此拉开市场的一道口子,锁定了自己的客群和作品。每当看到优秀的作品,就把它们收集下来,找差异,做模仿:“看看自己能不能模仿到大佬水平的 60%-70%,也看看我们的声音之间有没有中间值,可以让我做二次创作。”

  回到文章开头说过的,当麓雨发现自己的声音被做成了模板广泛使用:“它采集的是我 2020 年的声音,用一种很机械的方式表达出来。它在重复学习过去我的声音时,我已经在认知、用声习惯上都进步了许多。AI 可以模仿气口、发音方式、稳定性、固定情绪下人的表达状态,甚至已经做得很真实了。但再怎么真实,它总是在算法控制之内的。而我作为人,生活状态太多变了,现在我挂了电话去吃了饭,再说话又是另一个状态,AI 是学不够的。”

  这是一种近乎哲学的概念:人的声音像溪水泛舟,瞬息万变,而 AI 永远在刻舟求剑。

  但当一个声音太有辨识度,而与一个角色深度绑定,一旦背后的真人行为不端,它对应的角色也将背负永久的污点:正如偶像“塌房”而带来的巨大舆论和经济风险,催生了永不塌房的虚拟偶像一样,许多制作方也开始因为“人类的不完美”选择 AI。

  据日本媒体文春的近期报道,曾为《名侦探柯南》中的安室透、《海贼王》中的萨博、《圣斗士星矢》中的星矢、《美少女战士》中的夜礼服假面、《龙珠》中的雅木茶角色配音的古谷彻(70 岁),与 33 岁的女粉丝发展婚外恋,并有令对方堕胎、暴力的行为。这让许多观众大跌眼镜。AI 在这时呈现出自己具有压倒优势的一面:它的稳定可控,让它在工具性上完全胜于人类狂乱的本能。

  回到配音作品上,未来,配音商品和配音艺术品的差异性将会被逐渐拉大。前者满足稳定、效率、滴水不漏,后者负责承载感情、意义、人类的尊严和创造性。这也是许多配音员坚信的事情:越来越成熟的 AI 语音生成技术,一定会取代一大批基础配音的工作;但只要坚持提升自己的声音条件,增强自己在市场上的独特点,就很难被 AI 完全取代。

  麓雨介绍,如今,AI 技术和配音员正在相互磨合彼此的位置。一些剪辑师会先在视频前期敲上字幕,加入 AI 模拟的配音,在甲方初审后,再找更符合片子调性、更符合甲方想法的真人配音师完成最后的工作。在双方知情的情况下,AI 可以作为配音界的助手,有效提升剪辑制作的效率。

  “未来,也许 AI 技术成熟了,但成本会不会一直居高不下?就算成本降下来,那人们的审美会不会越来越疲劳?当甲方变成了自小接触科技的 90、00 后,他们会不会对 AI 声音感到厌倦?对 AI 的使用,也许是一个不断升高再逐渐回落的过程吧。”