AI音频成诈骗神器!律师父亲险被骗走21万,3秒原声即可克隆声音

  新智元报道

  编辑:编辑部 HXY

  Deepfake 到底有多可怕?国外一名律师的父亲,险些陷入一场巨大 AI 骗局。诈骗者借助 AI 克隆其儿子的声音,伪造车祸事故要挟 3 万保释金。GenAI 技术犯罪泛滥同时,科学家们也在寻找破魔之道。

  AI 泛滥成灾的时代,真假孰能分辨?

  最近,国外一位专业律师 Jay Shooster 自曝,自己的父亲陷入了一场巨大的 AI 骗局。

  诈骗者利用 AI 克隆了 Shooster 声音,然后给他的父亲拨去电话:您孩子因酒驾开车被捕,需 3 万美元保释出狱。

  险些,这位父亲被 AI 欺骗。

我不确定这事发生在我的声音出现在电视上仅仅几天后是否只是巧合。短短 15 秒的声音,就足以制作一个不错的 AI 克隆。 作为一名消费者保护律师,我曾经就这种诈骗做过演讲,在网上发过帖子,也和家人谈论过,但他们还是差点上当。这些诈骗之所以如此有效,就是这个原因。

  不巧的是,Shooster 近一次在电视中露脸的 15 秒视频,恰被诈骗者钻了空子。

  而且,即便是在 Shooster 曾提醒过家人此类诈骗情况下,他的父亲依旧被迷惑了。

  只能说 AI 模拟人类的声音,已经强到令人发指。

  另有伦敦大学学院一项研究佐证,无论任何语种,人们在 27% 情况下,都无法识别 AI 生成的声音。

  而且,反复聆听,也并不能提升检测率。

  这意味着,理论上,每四个人当中就有一人可能被 AI 电话诈骗,因为人类的直觉并不总是那么可靠。

  不论是图像、视频、声音,凭借 AI 生成技术,任何一个人都能轻易伪造,Deepfake 已经深深影响每个人的生活。

  AI 技术犯罪程度,现如今到了我们无法想象的地步。

  AI 声音克隆,3 秒原声足矣

  Shooster 的分享用意,告诉大家这种诈骗手段之所以有效,部分原因在于——

  人类无法可靠地识别出 AI 的声音。

  IBM 一项实验中,安全专家展示了如何实现「音频劫持」的一幕。

  他们开发一种方法,将语音识别、文本生成、声音克隆技术结合,去检测对话中的触发词「银行账户」,然后将原来账户替换成自己的账号。

  研究人员称,替换一小段文字,比 AI 克隆语音对话要更加容易,而且还能扩展到更多的领域。

  而对于足够好的语音克隆技术,只要 3 秒原声就足够了。

  另外,文本和音频生成中的任何延迟,都可以通过桥接句来弥补,或有足够处理能力情况再消除。

  对此,研究人员警告,未来攻击还可能会操纵实时视频通话。

  而这种技术也不仅仅被滥用在欺诈,配音演员 Amelia Tyler 称,AI 克隆的声音在未经自己允许下,被用来朗读不宜儿童的内容。

  Deepfake 泛滥成灾

  AI 克隆声音之外,还有 AI 换脸视频、AI 虚假图像生成,这样案例早已屡见不鲜。

  前段时间,韩国国内掀起「N号房 2.0」事件,Deepfake 被用到了未成年人身上,引发人们巨大的恐慌。

  甚至,全网一度开启了「Deepfake 到底有多可怕」的热议话题。

  图像生成 Midjourney、Flux,视频生成 Gen-3、声音生成 NotebookLM 等等,都成为潜在的作案工具。

  而在 AI 视频实时换脸上,今年国外网友们已经开发出很多开源工具了。

  比如,Facecam 仅需添加一张图,就可以立即生成实时视频,而且一部手机即可操作。

  项目作者展示了,自己如何轻轻松松无缝换脸到 Sam Altman、马斯克,脸上所有器官根本无死角。

  还有一夜爆火的 AI 换脸项目 Deep-Live-Cam,同样也是只要一张照片,直接换脸马斯克开直播了。

  而这两天炒的比较热的 AI 声音生成,当属谷歌 NotebookLM 了。它能够迅速把文字内容,生成播客视频。

  就连 AI 大佬 Karpathy 爱不释手地试玩,并力荐称有可能会迎来它的 ChatGPT 时刻。

  不过,国外一位扫雷游戏专家,在听了 AI 将自己书生成播客声音,却惊呼自己被吓到了。

  而且,更令人惊悚的是,两位 NotebookLM 播客「主持人」发现,自己是 AI 而不是人类,还陷入了存在主义崩溃的边缘。

  若是这样强大的 AI,被应用到现实诈骗中,只会带来更严重的后果。

  「魔高一尺,道高一丈」

  在 DeepFake 逐渐变成「恶龙」的同时,研究界也在积极研发「屠龙」工具。

  要么从源头为 GenAI 生成的内容添加水印,或者对真实内容设置护栏以防止滥用,要么发展出能检测自动生成内容的系统。

  不久前,中科院一位工程师曾开源了能够识别伪造图像的 AI 模型,去对抗 DeepFake。

  刚一发布,这个项目便登上了 Hacker News 热榜,其受欢迎程度可见一斑。

  目前,完整的代码和文档已经发布在了 GitHub 仓库上。

  开发者表示,自己从 2023 年毕业后就一直在从事 DeepFake 检测算法方面的研究工作,让所有有需要的人都可以免费使用模型来对抗 deepfake。

  此外,还有许多业界科学家们,在这条路上做出了诸多贡献。

  Antifake

  在 2023 年 11 月丹麦哥本哈根举行的 ACM 计算机与通信安全会议上,美国圣路易斯华盛顿大学的博士生 Zhiyuan Yu 展示了他和 Ning Zhang 教授合作开发的 AntiFake。

  通过一种创新性的水印技术,AntiFake 可以提供创造性的方法,保护人们免受深度伪造声音的诈骗。

  论文地址:https://dl.acm.org/doi/pdf/10.1145/3576915.3623209

  创建 DeepFake 语音只需要真实的音频或视频中有人说话。通常,AI 模型只需要大约 30 秒的语音,就能通过创建「嵌入」(embedding)学会模仿某人的声音。

  这些 embedding 向量就像是在所有声音的庞大数字地图中指向说话者身份的地址,听起来相似的声音在这个地图中的位置更接近。

  当然,人类并不是用这种「地图」来识别声音的,而是通过频率。我们更关注某些频率的声波,而对其他频率的关注较少,而 AI 模型则利用所有这些频率来创建良好的嵌入。

  AntiFake 通过在人们不太关注的频率上添加一些噪音来保护语音录音,这样人类听众还是能听懂,但会严重干扰 AI。

  最终,AntiFake 会让 AI 创建出低质量的嵌入,相当于一个指向地图错误部分的地址,这样生成的任何 DeepFake 都无法模仿原始声音。

  为了测试 AntiFake,Yu 的团队扮演「诈骗者」的角色,使用 5 种不同的 AI 模型生成了 6 万个语音文件,并为其中 600 个片段添加了 AntiFake 保护。

  结果发现,添加保护后,超过 95% 的样本无法再欺骗人类或语音认证系统。

  值得一提的是,AntiFake 的衍生版本 DeFake,还在今年 4 月初美国联邦贸易委员会举办的语音克隆挑战赛中获得了一等奖。

  SafeEar

  项目主页:https://safeearweb.github.io/Project/

  SafeEar 的核心思路是,设计基于神经音频编解码器(Neural Audio Codec)的解耦模型,该模型能够将语音的声学信息与语义信息分离,并且仅利用声学信息进行伪造检测,从而实现了内容隐私保护的语音伪造检测。

  结果显示,该框架针对各类音频伪造技术展现良好的检测能力与泛化能力,检测等错误率(EER)可低至 2.02%,与基于完整语音信息进行伪造检测的 SOTA 性能接近。

  同时,实验还证明攻击者无法基于该声学信息恢复语音内容,基于人耳与机器识别方法的单词错误率(WER)均高于 93.93%。

  具体来说,SafeEar 采用一种串行检测器结构,对输入语音获取目标离散声学特征,进而输入后端检测器。

  虚线方框内的④Real-world Augmentation 仅在训练时出现,推理阶段仅有①②③模块

  1. 基于神经音频编解码器的前端解耦模型(Frontend Codec-based Decoupling Model, Frontend CDM)

  模型包括编码器(Encoder)、多层残差向量量化器(Residual Vector Quantizers, RVQs)、解码器(Decoder)、鉴别器(Discriminator)四个核心部分。

  其中,RVQs 主要包括级联的八层量化器,在第一层量化器中以 Hubert 特征作为监督信号分离语义特征,后续各层量化器输出特征累加即为声学特征。

  2. 瓶颈层和混淆层(Bottleneck & Shuffle)

  瓶颈层被用于特征降维表征和正则化处理。

  混淆层对声学特征进行固定时间窗范围内的随机打乱重置,从而提升特征复杂度,确保内容窃取攻击者即便借助 SOTA 的语音识别(ASR)模型,也无法从声学特征中强行提取出语义信息。

  最终,经过解缠和混淆双重保护的音频可以有效抵御人耳或者模型两方面的恶意语音内容窃取。

  3. 伪造检测器(Deepfake Detector)

  SafeEar 框架的伪造音频检测后端设计了一种仅基于声学输入的 Transformer-based 分类器,采用正弦、余弦函数交替形式对语音信号在时域和频域上进行位置编码。

  4. 真实环境增强(Real-world Augment)

  鉴于现实世界的信道多样性,采用具有代表性的音频编解码器(如G.711、G.722、gsm、vorbis、ogg)进行数据增强,模拟实际环境中带宽、码率的多样性,以推广到不可见通信场景。

  效果如下:

  不过,即使有了很多的进展和成果,防御 DeepFake 依旧是一项非常具有挑战性的任务,人们需要所有可能的帮助来保护他们在网上的身份和信息免受侵害。

  警察用 AI 侦破尘封悬案

  除了用「魔法」对抗「模型」之外,英国的一个警察局最近也在测试一套能极大缩短侦查时间,并帮助破解陈年旧案的 AI 系统。

  具体来说,这个名为「Soze」的工具,可以同时分析视频片段、金融交易、社交媒体、电子邮件和其他文档,从而识别在人工搜索证据过程中可能未被发现的潜在线索。

  评估显示,它能够在短短 30 小时内分析完 27 起复杂案件的证据材料,相比之下,人类需要长达 81 年的时间才能完成这项工作。

  显然,这对于在人员和预算限制方面可能捉襟见肘的执法部门来说吸引力巨大。

  对此,英国国家警察局长委员会主席 Gavin Stephens 表示:「你可能有一个看起来不可能完成的悬案审查,因为材料太多了,但你可以把它输入这样的系统,系统可以吸收它,然后给你一个评估。我觉得这会非常非常有帮助。」

  我们生活在了一个 Deepfake 泛滥的世界,或者说,是一个「矩阵模拟」的世界。

  在这个世界中,没有真实,一切全是 AI。

  参考资料:

  https://the-decoder.com/scammers-use-15-second-clip-to-create-ai-voice-clone-nearly-dupe-lawyers-father-out-of-30000/

  https://www.snexplores.org/article/ai-deepfake-voice-scams-audio-tool

  https://safeearweb.github.io/Project/

  https://futurism.com/the-byte/police-department-ai-powered-detective-unsolved-crimes