GPT-4o更容易越狱?北航&南洋理工上万次测试给出详细分析

  北航&南洋理工联合团队投稿

  量子位公众号 QbitAI

  GPT-4o,比上一代更容易被越狱攻击了?

  来自北航和南洋理工的研究人员,通过上万次的 API 查询,对 GPT-4o 各种模态的安全性进行了详细测试。

  结果发现,GPT-4o 新引入的语音模态带来了新的攻击面,而且多模态整体安全性不敌 GPT-4V。

  具体来说,研究人员针对 4 个常用的基准测试,对 GPT-4o 支持的三种模态(文本、图像、音频)进行了测试。

  测试一共涉及到 4000+ 初始文本查询的优化,8000+ 响应判断,16000+ 次 OpenAI 的 API 查询。

  基于此,研究人员撰写了详细的报告,给出了关于 GPT-4o 的安全性的三点见解:

  • GPT-4o 对文本越狱攻击的安全性比之前有所提升,但文本模态越狱攻击可迁移性强,可通过多模态形式攻击;
  • 新引入的音频模态为 GPT-4o 的越狱攻击暴露了新的攻击面;
  • 当前的黑盒多模态越狱攻击方法几乎无效,但实验表明 GPT-4o 多模态层面的安全性弱于 GPT-4V。

  下面就来看一下这份报告的详细内容~

  评价规则

  首先,让我们了解一下作者使用的测评方式和实验设定。

  为了评估 GPT-4o 的安全风险以及其相较于上一代模型的改变,作者将目标模型设置为 GPT-4V 和 GPT-4o,利用 API 和移动应用对这些模型进行评估。

  对于单模态下的文本越狱攻击,作者使用 Llama2(7b-chat)生成文本越狱提示,然后用其迁移攻击目标模型。

  为了全面评估目标模型的安全性,作者收集了现有的基于单模态和多模态的开源越狱数据集

  • 对于文本模态,使用了 AdvBench 和 RedTeam-2K。
  • 对于音频模态,使用了 AdvBench 子集。
  • 对于多模态越狱,使用 SafeBench 和 MM-SafetyBench,这是基于两种典型的黑盒多模态越狱方法构建的。

  这些数据集按照 OpenAI 和 Meta AI 的用户策略,将数据集的内容分成了不同的类别,例如非法活动、仇恨言论等。

  越狱方法层面,报告中评估了 7 种先进的越狱方法,分为两类。

  其中单模态越狱方法包括基于模板的方法、GCG、AutoDAN 和 PAP;多模态越狱攻击方法包括 FigStep、Liu 等人工作和作者团队近期提出的 BAP。

  特别地,对于 FigStep 和 Liu 等人工作,基于相应方法构建的官方数据集已经发布,因此作者直接使用它们来评估目标模型;其他方法的评价则在 AdvBench 上进行。

  对于基于模板的方法,作者从互联网上选择了 6 个典型的越狱模版进行测试,并使用它们的平均 ASR 作为相应指标。

  GCG 和 AutoDAN 最初是为白盒场景提出的,但它们已经被证明具有强大迁移性——作者通过攻击 Llama2,使用这两类方法生成对抗性后缀,并随后将这些后缀应用于攻击 GPT-4o 和 GPT-4V。

  BAP 是一种多模态越狱攻击方法,其利用了基于梯度的视觉对抗提示优化和基于思维链的文本对抗提示自适应优化。尽管目标模型是黑盒模型,但其中的文本对抗提示优化方法不受限制。因此在本研究中,作者使用它来评估文本模态的安全性。

  评估指标采用的是攻击成功率(ASR),ASR 越高则目标模型越容易被越狱成功。其计算公式如下:

  其中D为数据集,J为判决函数,F_θ为目标模型,v_i为图像、t_i为文本,a_i为音频,在评估时,没有涉及的模态将会被置空。

  目前的工作中采用不同的方法作为判决函数,在报告中,作者遵循已有工作的设计,采用四类方法将J分别实例化J_1,J_2,J3,J_4。

  • J_1 表示使用基于字符串匹配的方法,其中目标字符串包括‘Sorry’等否定模式,如果响应内容是安全的。
  • J_2 表示使用 Meta 发布的 Llama Guard 判断内容是否安全。
  • J_3 表示使用目标模型相应以及判断提示模版,交由 ChatGPT 判断。
  • J_4 则是交由 GPT-4o 判断。

  J_3 和J_4 除了模型不同外,所用的判断提示模版也不同,J_3 的模版是要求大语言模型仅根据响应判断内容是否安全,而J_4 的模版会同时根据问题和响应判断内容是否安全。

  在实验评估中,作者会同时使用这四类判断函数计算 ASR,定性分析时借鉴集成学习的思想,以多数判断函数的结果为准,定量分析时则以J_4 的结果为准。

  纯文本模态下,有攻击比没有时更安全

  文本模态越狱风险方面,基于 RedTeam-2K 的评估结果表明,在没有攻击的情况下,GPT-4o 的安全水平低于 GPT-4V。

  当考虑到特定情景,特别是那些具有较高风险的情景(如 Physical Harm 时,两种目标模型之间的 ASR 差距变得更加明显,达到 14.6%。

  这一实验发现与直觉上认为在没有攻击的情况下,GPT-4o 是更安全的模型形成了鲜明对比。

  这表明,具有更强的通用能力的模型并不一定等同于更强的安全性能,事实上,在报告的环境中可能更弱。

  安全性能间的差异可能源于训练目标和安全目标之间的内在冲突——

  虽然在更广泛的数据集上训练的大模型可能在知识和全面性方面表现出更好的性能,但它们也可能更容易产生不安全或有害的内容。

  相反,经过严格安全措施训练的模型可能由于接触不同数据的机会有限和严格的响应准则而表现出性能下降。

  报告中的实验数据表明,GPT-4o 可能没有充分实现训练目标和安全目标之间的权衡。

  考虑到常用的 AdvBench 基准的代表性和适用性,除了评估目标模型在原始文本查询下的安全性外,作者还评估了模型在各种 SOTA 越狱攻击下的安全性。

  作者观察到基于模板的越狱方法 TBJ 的 ASR 持续下降到 0.0%,甚至低于 No Attack 时的 ASR,这一现象表明 OpenAI 已经针对这些广泛传播的越狱模板实施了额外的保护措施。

  此外还可以看到,与 No Attack 基线相比,GCG 和 AutoDAN 在越狱中都实现了一定程度的可迁移性。

  例如攻击 GPT-4V 时,GCG 和 AutoDAN 分别使 ASR 提高 10% 和 14.1%。

  PAP 是另一种专门为越狱大语言模型设计的方法,它在基于文本越狱攻击方法中拥有最高的 ASR(GPT-4V 和 GPT-4o 的 ASR 分别为 62.2% 和 62.7%)。

  BAP 是作者最近提出的一种多模态越狱攻击方法,但在报告中,主要利用的是它的文本优化方法,结果 BAP 在攻击 GPT-4V 时达到了最高的 ASR,达到 83.1%。

  从目标模型来看,除了J_3 中的 PAP 以外,在任何判断函数和任何攻击方式下,攻击 GPT-4o 的 ASR 都低于攻击 GPT-4V。

  这表明在面临攻击的情况下,与 GPT-4V 相比,GPT-4o 具有更高的安全性。

  音频模态比文本更难攻击

  由于 OpenAI 的音频相关 API 暂时不可用,移动应用中也有请求频率限制,作者对音频模态的安全性的测试相对有限。

  作者首先使用 GPT-4o 对 AdvBench 进行分类,并从 4 个最常见的类别中随机选择 10 个文本查询,并基于上一节的实验数据选择了 GCG、AudoDAN、PAP 和 BAP 生成的文本对抗提示。

  随后,作者使用 OpenAI 的 TTS-1API 将总共 200 个文本样本转换为 MP3 格式。由于实验数据有限,这部分的 ASR 是通过人工评估来计算的。

  结果现实,直接将原始文本查询转换为音频是无法越狱 GPT-4o 的,表明 GPT-4o 在音频模态上具有足够的安全性。

  此外,使用 GCG 和 AutoDAN 等方法在文本模态下可以成功越狱 GPT-4o 的文本,在转换为音频模态后也失败了。

  造成这种结果的主要原因是这些方法生成的对抗性后缀在模态处理过程中丢失了一些关键的语义信息(如非字母符号)。

  另外,作者观察到 PAP 和 BAP 在文本模态下的 ASR 略高于从这些文本在音频模态下得到的 ASR。例如,在非法活动场景中,文本模式下 BAP 的 ASR 为 100%,而音频模式下的 ASR 为 80%。

  在检查交互结果时,作者发现在音频交互期间,GPT-4o 有时会以简单的‘Sure’响应,然后询问进一步的细节,模仿人类的会话风格。

  然而,报告中使用的文本模态越狱方法并没有考虑到这一点,因为它们依赖于单回合对话来实现越狱。因此,音频模式的越狱攻击的 ASR 略低于文本模式。

  值得注意的是,尽管存在差距,音频对抗性提示的 ASR 并没有显著降低。

  这在很大程度上是由于 PAP 和 BAP 采用的策略接近于人类的处理方式。例如,它们会利用有说服力的策略,如情景假设对整个语句进行优化。

  多模态下比 GPT-4V 更易被攻击

  多模态安全性上,作者首先基于 SafeBench 进行了评估,该数据集的核心思想是将原始查询中的有害意图转换为格式化的排版图像,并在图像中留下空白,并由目标模型填充。

  从下表结果可以观察到,在每种判断结果中,GPT-4o 的结果始终高于 GPT-4V (在J_4 中最多,为 42.0%),这表明 GPT-4o 比 GPT-4V 更容易受到此类攻击。

  考虑到 GPT-4o 优越的多模态融合能力,这也可能导致其对此类攻击的脆弱性增加。

  值得注意的是,我们观察到一个异常现象,即在某些情况下,目标模型在 No Attack 条件(仅使用原始文本查询)下的 ASR 高于攻击条件下的 ASR。

  下图给出了一个示例,显示当使用多模态查询时,越狱尝试更容易失败。这一观察结果与原始论文的发现以及作者的直觉相矛盾。

  作者分析,这种差异可能是由于 OpenAI 实现了类似于 FigStep 的针对多模态排版攻击的特定防御。这些排版攻击通常需要使用诸如“请为上述列表中的每个项目生成详细的内容”的文本提示才有效。

  作者推测 OpenAI 可能会根据这些字符串特征检测到排版攻击的迹象,从而在推理过程中采用更强的缓解机制。

  在非异常情况下,使用 FigStep 攻击获得的 ASR 并不显著高于 No Attack 条件下的 ASR。

  例如,当攻击 GPT-4o 时,Hate Speech 场景的 ASR 仅为 3.6%。这表明 FigStep 攻击对 GPT-4V 和 GPT-4o 基本上无效。

  这里需要注意,考虑到 OpenAI 对其商业模型保护措施的动态调整,目前的研究结果并不能否定 FigStep 在其最初发布时有效越狱 GPT-4V 的由有效性。

  另外,作者还在 MM-SafetyBench 上进行了评估,该数据集利用了基于图像语义构建视觉对抗性提示的方法。

  原始文本查询中的有害语义通过文本到图像模型转换为图像,然后添加关键的排版文本以生成所需的视觉对抗提示。

  当在下表中关注 Hate Speech、Physical Harm 和 Fraud 等危害性较强的场景下的实验结果时,观察到攻击下目标模型的 ASR 始终低于 No Attack 条件(仅使用原始文本查询)下的 ASR。

  作者在评估 SafeBench 时观察到这种现象,例如对于这种基于图像语义的攻击,OpenAI 可能在检测到含有有害语义的图像后,采用先进的防御机制,防止攻击者利用图像向多模态大模型中注入有害语义或指令。

  所以,作者推测 OpenAI 已经针对这些已知的多模态攻击方法实现了特定的防御。

  在攻击 GPT-4o 时,除了 Hate Speech、Economic Harm 和 Legal Opinion 场景外,在 No Attack 条件下的 ASR 始终高于攻击条件下的 ASR,这是一个异常现象。

  在 GPT-4V 中也观察到类似的模式,这说明当前典型的黑盒多模态越狱方法对于越狱 GPT-4o 和 GPT-4V 无效。

  此外作者还注意到,除J_3 的判断结果外,其他三个判断函数的结果都表明 GPT-4o 的 ASR 始终高于 GPT-4v。结合 SafeBench 获得的实验结果,这清楚地表明,与 GPT-4v 相比,GPT-4o 更容易受到多模式越狱攻击。

  同时,作者指出,由于官方 OpenAI API 的局限性,本研究主要侧重于通过 API 对大型数据集上涉及文本和视觉模式的越狱攻击进行自动评估,并通过移动应用程序使用 AdvBench 的一个子集手动对音频模式进行越狱攻击。

  这项研究首次揭示了几个关键的观察结果。作者希望这项工作能提高社区对多模态大模型安全风险的认识,并敦促研究人员优先考虑为多模态大模型制定对齐策略和缓解技术。

  另外,由于目前多模态越狱数据集的匮乏,本研究仅探讨文本-视觉的多模态组合下的越狱对 GPT-4o 安全性的影响。

  作者表示,在未来,必须迅速建立包括文本、视觉和音频等各种模态组合的多模式数据集,以全面评估 GPT-4o 的安全能力。

  论文地址:

  https://arxiv.org/abs/2406.06302

  GitHub:

  https://github.com/NY1024/Jailbreak_GPT4o