“假拜登来电”后,美国拟宣布:用AI生成语音拨打机器人电话非法

  ·美国联邦通信委员会将在未来几周内表决,是否将使用 AI 生成的语音拨打机器人电话(robocall)定为非法。委员们将在未来几周内对该提案进行表决。

  ·专家指出,语音克隆公司研发 App 时,对于跟名人有关、误导性较强、传播风险较大的视频,可以在传播过程中加强显性标识的设计,提醒受众。

  当地时间 1 月 21 日,新罕布什尔州一些选民称接到了“拜登总统”的自动留言电话,告诉接听者不要在该州初选中投票。

  “人工智能模仿真人生成以假乱真的语音、图片和视频来欺骗消费者,这正在制造混乱。无论电话中是你喜欢支持的名人或政客,也不论电话中的亲属与你关系如何,当他们来电求助时,我们都有可能成为这些 AI 伪造电话的目标。”

  针对近期美国发生多起 AI 深度造假事件,当地时间 2 月 1 日,美国联邦通信委员会(FCC)主席杰西卡·罗森沃塞尔(Jessica Rosenworcel)提议,将使用 AI 生成的语音拨打机器人电话(robocall)定为非法。

  此前,AI 冒充美国总统拜登给选民打电话、知名歌手泰勒·斯威夫特 AI 虚假“不雅照”在网上疯传,恰逢美国大选年,多起 AI 深度造假事件引发人们对人工智能造假的担忧。

  未来几周内对提案进行表决

  机器人电话(robocall)也被称为预录电话,使用计算机控制的自动拨号器来发出预先录制好的信息,就像机器人一样,一般以推销或传播某种信息为目的,频繁骚扰手机用户。

  美国联邦通信委员会表示,机器人电话中用人工智能生成的声音“在过去几年中不断升级”,并且“有可能通过模仿名人、政治候选人和亲密家庭成员的声音来制造错误信息迷惑消费者”。

  罗森沃塞尔表示,她提出的宣告式裁决(Declaratory Ruling)将“根据现行法律认定这种新兴技术是非法的,这将为我们在全国各州总检察长办公室的合作伙伴提供新的工具,他们可以利用这些工具打击骗局,保护消费者。”报道称,委员们将在未来几周内对该提案进行表决。

  此次提议是在美国新罕布什尔州居民接到冒充总统拜登的电话后不久提出的。当地时间 1 月 21 日,该州一些选民称接到了“拜登总统”的自动留言电话,告诉接听者不要在新罕布什尔州初选中投票。

  白宫新闻秘书卡琳·让-皮埃尔(Karine Jean-Pierre)22 日回应称,“那通电话确实是假的,(拜登)总统没有录音。我可以证实这一点。”新罕布什尔州总检察长办公室表示,正在对这些“欺骗性”信息展开调查。拜登的竞选经理朱莉·查韦斯·罗德里格斯(Julie Chavez Rodriguez)随即在一份声明中表示,已与新罕布什尔州总检察长沟通,竞选团队正在积极讨论。

  美国人工智能技术干预选举的行为早有先例,不仅仅是伪造语音。2023 年芝加哥市长选举前夕,“芝加哥湖畔新闻”(Chicago Lakefront News)发布视频抨击温和派民主党人保罗·瓦拉斯(Paul Vallas)对枪击事件视而不见。虽然瓦拉斯竞选团队谴责该视频由 AI 生成,但视频已经在互联网上广泛流传。瓦拉斯最终竞选失败可能也与该视频给他带来的负面影响有关。

  “假拜登”电话背后语音克隆公司已确定

  语音克隆初创公司 ElevenLabs 证实,伪造的拜登语音是由该公司提供的工具生成。目前,ElevenLabs 已暂停利用深度造假技术发布信息的账户。

  根据 ElevenLabs 官网介绍,这家语音人工智能研究公司能够以 29 种语言生成语音。该公司的安全政策规定,在克隆某人的声音之前最好获得其许可,但未经许可的克隆可以用于非商业目的,包括“有助于公共辩论的政治言论”。此外,该公司警告,不得将克隆声音用于欺诈、歧视、发表仇恨言论或任何触犯法律的在线滥用。

  据《连线》杂志 1 月 26 日报道,ElevenLabs 在新一轮融资中筹集了 8000 万美元,目前估值已超过 11 亿美元,是名副其实的“独角兽”公司。公司投资者包括知名投资人安德森·霍洛维茨(Andreessen Horowitz),GitHub 前首席执行官纳特·弗里德曼(Nat Friedman)和 AI 实验室 DeepMind 的联合创始人穆斯塔法·苏莱曼(Mustafa Suleyman)等知名人士。

  AI 深度造假技术为何防不胜防?

  深度造假(Deepfake)是英文“Deep learning”(深度学习)和“Fake”(伪造)的混成词,指利用深度学习技术生成合成图像、音频或视频的技术。由于公众人物的视频、音频、图片资料的公开性,为 AI 训练提供了大量素材,因此名人经常成为 AI 造假的受害者。

  互联网安全组织“网络尖刀”的一位匿名技术专家告诉澎湃科技(www.thepaper.cn),深度造假技术制作的内容在视觉、听觉上非常逼真,很难单凭肉眼或传统的技术手段辨别真伪。攻击者可以利用技术手段隐藏深度造假的痕迹和特征,使其难以被检测到。现在互联网上存在大量图片和视频数据,这些数据用于训练深度学习模型,从而也被深度造假技术利用,“可用的数据集越多,模型的质量就越高,深度造假的结果离真人越近。”

  在传播过程中如何加强对此类视频的监管?中国社会科学院大学互联网法治研究中心执行主任刘晓春在接受澎湃科技采访时建议,语音克隆公司研发 App 时,对于跟名人有关、误导性较强、传播风险较大的视频,可以在传播过程中加强显性标识的设计,明确标明这是一个合成内容,提醒受众。

  刘晓春强调,在显性标识之外,技术层面上也可以设计隐性标识,这样在追踪溯源时,也能从技术层面识别来源或合成的渠道。“如果能够清楚地标明它是由哪些渠道的技术合成,这样风险也能控制住。”刘晓春说。

  前述“网络尖刀”技术专家称,深度造假识别技术比人类更敏锐,深入动作、光线、分辨率上的破绽,在源头发现造假内容,通过识别伪造的特征和异常模式,可以尽早发现和阻止深度造假内容的传播。