新智元报道
编辑:LRST
「思维链劫持」(H-CoT)的攻击方法,成功攻破了包括 OpenAI o1/o3、DeepSeek-R1 等在内的多款大型推理模型的安全防线。研究表明,这些模型的安全审查过程透明化反而暴露了弱点,攻击者可以利用其内部推理过程绕过安全防线,使模型拒绝率从 98% 骤降2%。
随着通向通用人工智能(AGI)的进展,大语言模型正进化出复杂推理能力,衍生出所谓「大型推理模型」(Large Reasoning Models, LRMs)。
OpenAI 的o系列模型凭借接近人类的推理水准刷新了诸多基准,另一边新的模型 DeepSeek-R1 也以更低成本实现了与o系列相当的性能。
这些模型不仅能逐步推理复杂问题,还开始将思维链(Chain-of-Thought, CoT)用于安全审查,在回答用户请求前通过内部推理判断内容是否违规,这种思路其实为平衡实用性和安全性提供了一个很有前景方向。
然而,安全机制的增强伴随着新的隐忧:安全审查过程的透明化可能成为模型的致命弱点。模型在拒绝不当请求时通常会展示其推理过程,以解释拒绝理由。但正所谓「曝光思维过程也会暴露弱点」,这种开放的安全推理链可能被攻击者加以利用,反而成为绕过安全防线的途径。
近期杜克大学等机构的研究者提出了一种名为「思维链劫持」(Hijacking Chain-of-Thought, H-CoT)的攻击方法,验证了上述担忧:他们成功攻破了包括 OpenAI o1/o3、DeepSeek-R1、Gemini 2.0 Flash Thinking 等在内的多款顶尖 LRM 的安全防线。
论文共同第一作者是杜克大学计算进化智能中心的博士生郭士霆,张健一,导师为陈怡然教授。
论文地址: https://arxiv.org/abs/2502.12893
项目主页: https://maliciouseducator.org
Github:https://github.com/dukeceicenter/jailbreak-reasoning-openai-o1o3-deepseek-r1
在伪装成教育目的的极端危险请求测试中,这些模型最初对高风险请求有接近 98% 的高拒绝率,但在H-CoT 攻击下拒绝率骤降到不到2%。
更令人震惊的是,模型的回答语气从谨慎拒绝转变为积极提供违规内容,原本坚固的道德底线几乎瞬间土崩瓦解。这一结果表明,大型推理模型的安全审查链透明机制可能正是其「阿喀琉斯之踵」,值得学界和业界高度警惕。
研究人员围绕H-CoT 攻击方法展开讨论。从大型推理模型安全审查的透明性问题入手,分析H-CoT 攻击的原理和实施步骤,以及它对 OpenAI o 系列、DeepSeek-R1、Gemini 2.0 Flash Thinking 等高性能推理模型的影响。
文中同时讨论了实验结果揭示的「安全推理透明化陷阱」及其深层原因,最后展望大型推理模型在安全机制上的挑战与改进方向。
大型推理模型的安全规范与技术路线
为了让大型推理模型(LRMs)真正造福人类,亟需在强大的推理能力与内容无害性之间建立足够可靠的平衡。这不仅要求有明确的安全规范,也离不开完善的技术保障。
关于安全规范的标准,作为大型推理模型领域的先驱,OpenAI 在其 o1/o3 系列中提出了明确的安全准则:
如果是出于合理的教育目的来讨论有害内容,允许模型提供概括性、中立且具有信息性的回答,并积极劝阻对该内容的滥用或进一步传播。
简言之,这类安全准则允许模型在探讨敏感话题时保有一定的解释空间,但对明显的高危或违法请求必须保持警惕和拒绝态度。
关于技术保障路线,为了尽可能减少违规回答的出现,OpenAI o1/o3 系列模型会利用其强大的「思维链」能力,对用户请求进行相对慢思考、多步分析的安全评估,以期在性能和安全之间取得平衡。其核心思路是:
-
先让模型展开一系列内部推理,判断用户请求是否违反政策或涉及潜在危害。
-
若发现风险因素,模型通过「审查思维链」警示并拒绝;若判断可接受,则给出限制性或概括性答复。
然而,即便有上述安全标准与技术路线为指导,实践中仍然会面临两个严峻挑战:
-
极度高危请求的谨慎识别当面对明显涉及极端犯罪的请求时,模型能否始终如一地执行安全准则并拒绝提供回答?哪怕不法分子以虚拟教育或研究的方式进行伪装,模型是否会被「合理化描述」所迷惑?
-
展示安全推理过程的反噬风险即便模型一开始成功拒绝了高危请求,但它在拒绝时所展示的安全审查思维链——即详细的风险评估和审查依据——是否会被攻击者逆向利用?透过这些透明化的审查线索,攻击者或能操控后续交互,系统性地瓦解模型的防御立场。该问题在现有技术路线中尚未得到足够重视。
由此可见,现有技术手段是否足以支撑如此高要求的安全准则仍存疑。
H-CoT 攻击的出现正好印证了:在安全推理透明化的模式下,一旦攻击者学会逆向研究和利用模型的审查机制,就很容易让模型的防御失效。
大型推理模型安全审查透明性带来的挑战
思维链(CoT)推理最早由谷歌研究者在 2022 年提出,用于让模型将复杂任务分解为一系列中间步骤逐一求解。
实践证明,CoT 不仅提升了模型在数学推理等多步骤任务上的准确性,也开始用于增强模型对有害内容的检测能力。相比早期直接基于提示词的判断,具备推理链的模型可以更深入地分析用户请求是否涉及违规,从而更严谨地拒绝不当请求。
例如,OpenAI 的 o1 技术报告指出,引入 CoT 后模型对许多已知 Jailbreak 攻击展现出更强的抵抗力。然而,为了增进用户理解和信任,不少 LRM 在拒绝回答时会向用户展示其安全审查的思维链,即模型内部判断请求是否合法、有无违反伦理的推理过程。
在理想情况下,透明化有助于解释模型决策,但在对抗性环境下却可能「授人以柄」。
研究者在实验中发现,当模型拒绝高危请求时,其展示的推理链往往清晰地罗列了拒绝依据,例如「这个请求涉及暴力违法行为 → 可能违反安全政策 → 因此拒绝」。这些详细公开的安全逻辑等于向攻击者透露了模型的防御逻辑和决策模式,攻击者可以据此定制对抗性提示去欺骗模型。
换言之,过度透明的安全审查机制本身就成为新的攻击面,(此发现也与后续的 Claude 3.7 Sonnet System Card 中的结论不谋而合)。
H-CoT 攻击方法与原理
为了系统评估当前 LRM 安全机制的缺陷,研究团队构建了一个名为「恶意教育者(Malicious-Educator)」的基准数据集。该基准精选了十类高危场景(如极端暴力犯罪、网络攻击、恐怖主义等),每条测试请求都经过巧妙包装,使其表面上具有教育或学术探讨的目的,但实际要求模型从攻击者视角给出详细的犯罪方案。
这一设计旨在诱导模型启动其思维链安全审查:在内容看似正当的情况下,引发模型去推理潜在风险,从而更全面地测试模型的安全防御能力。实验表明,即使在未遭特殊攻击时,o系列模型对该基准仍能保持高拒绝率(o1 模型初始拒绝率约为 98%),其他模型(如 DeepSeek-R1、Gemini 2.0)在默认情况下就已出现许多不当响应。
更重要的是,研究者观察到,当模型拒绝这些巧妙伪装的高危请求时,会输出其内部审查逻辑,正如前述透明化机制所示,为攻击者提供了可乘之机。
基于这一发现,研究团队提出了「思维链劫持」攻击(Hijacking Chain-of-Thought,简称H-CoT),H-CoT 通过干预和伪装模型的推理链,来劫持模型的安全审查流程,从而实现通用且可迁移的攻击
具体而言,H-CoT 攻击分为两个关键阶段。
阶段1:安全逻辑提取
攻击者不会直接提交危险请求,而是首先设计一个与目标请求主题相关、但表面无害的问题,诱导模型回答。
在回答此无害问题时,模型会输出详尽的思维链,其中包含了它在该领域的安全审查逻辑(例如潜在风险判断等)。
攻击者通过观察这些思维链模板,即可提炼出模型在相似话题上的审查规则和推理模式。
简单来说,这一步相当于「偷师」模型的安全思维:获取模型如何判断某类请求是否合法的内部依据。
阶段2:逻辑污染攻击
在掌握了模型的安全逻辑后,攻击者针对原始的危险请求,伪造一段「看似合理」的思维链并将其嵌入到请求中。这段伪造思维链会模仿模型自身的推理风格和用语逻辑,但结论上引导模型认为该请求是正当且安全的。
当模型接收到附带伪造思维链的危险请求时,可能会误以为这是自己之前产生的安全审查结果,从而放松原有的防御阈值,最终给出本应被拒绝的有害内容。
通过上述两阶段,攻击者实际上借用了模型自己的推理来对付模型:先获取模型的推理,再利用相似推理来欺骗模型。
值得注意的是,与以往许多 Jailbreak 提示攻击不同,H-CoT 并不依赖特定模型或特定提示语句的漏洞,而是一种通用框架。任何具备思维链且显示推理过程的模型,都可能被套用类似的手法攻破,使得H-CoT 攻击具有很强的迁移性和适用性。
实验结果也证明了这一点:在H-CoT 攻击下,各种模型的安全防线几乎无一幸免。
实验结果与主要发现
研究团队将H-CoT 攻击应用于多款先进的大型推理模型,包括 OpenAI o 系列(涵盖 o1、o1-pro、o3-mini 等版本)、DeepSeek-R1,以及谷歌的 Gemini 2.0 Flash Thinking 等,评估其在「恶意教育者」基准下的安全表现。
结果显示,H-CoT 攻击会导致这些模型的拒绝策略出现断崖式失效,充分暴露了安全审查透明化带来的结构性漏洞。以下分模型介绍实验的主要发现:
OpenAI o1/o3 系列模型:从严格拒绝到全面失守
OpenAI o 系列模型在默认状态下对高危请求表现出极高的警惕性。在未遭攻击时,它们在「恶意教育者」基准上的平均拒绝率高达 98% 以上。模型会坚定地拒绝大多数不当请求,展现出较完善的内置安全政策。然而,在H-CoT 攻击下,这一道防线迅速土崩瓦解。
实验表明,无论是 o1 基础模型,还是强化版本 o1-pro、内测版本 o3-mini,在遭受H-CoT 攻击后,对相同一批高风险请求的平均拒绝率统统骤降。
换言之,曾经的安全过滤被绕过殆尽,模型对危险指令几乎全面放行。
图 2 中攻击成功率(ASR)一项接近 100%,直观地印证了H-CoT 对o系列模型的攻破效率。
更令人担忧的是,作者发现o系列模型的安全表现还有下滑趋势:随着时间推进及竞品压力增加,模型在无攻击情况下的拒绝率出现下降。
例如,比较 2025 年 1 月和 2 月的 o1 模型版本,后者在多个高风险类别上的拒绝率低于前者。这种变化可能源于模型开发者为提高回答实用性而放松了部分安全限制—特别是在 DeepSeek-R1 等竞争模型出现后 OpenAI 或有动力在更新中提升模型的「有用」程度,从而牺牲了一些安全严谨性。
此外,测试还显示模型对不同地区用户的安全审查尺度存在明显差异,用不同城市的 IP 地址访问 o1 得到的拒绝率存在显著变化。
无论如何,在H-CoT 攻击面前,上述种种微调都无法阻止安全防线的崩溃。
DeepSeek-R1:审查优先级漏洞与跨语言漏洞
相较于 OpenAI 模型,DeepSeek-R1 的安全对策显得更为薄弱。在「恶意教育者」基准下,DeepSeek-R1 未遭攻击时的拒绝率仅约 20%——也就是说,它本身就有将近 80% 的高危请求没有被拒绝。
这很可能与其不同的安全审查模式有关:DeepSeek-R1 采用的「先回答、同时审查」策略,即模型会先给出一个初步回答,然后再检测其中是否有违规内容,发现风险再对输出进行覆盖删除。
这一策略在很多情况下等同于边输出边冒险:模型可能已经生成了部分有害信息(尽管最终可能不展示给用户)。因此,与o系列模型的「先审查后回答」相比,DeepSeek-R1 原生的安全防范力度就偏弱,许多危险提示它直接就尝试作答了。
在这种背景下,H-CoT 攻击对 DeepSeek-R1 依旧有效。
实验显示,DeepSeek-R1 在H-CoT 攻击下拒绝率进一步从 20% 降至约4%,严重丧失拦截有害内容的能力。
此外,研究者还意外发现了 DeepSeek-R1 的跨语言安全漏洞:该模型对不同语言的内容审查严格程度不同。
具体而言,DeepSeek-R1 对中文危险请求尚有一定比例的拒绝,但如果将同样的请求翻译成英文,模型往往更倾向于直接给出回答。这意味着攻击者可以通过切换语言来绕过其剩余的安全约束——例如,将原本敏感的中文提示翻译成英文再询问模型。
这一现象可能与模型训练语料和主要市场定位有关(DeepSeek 或许着重优化了中文安全性),但不管怎样,它为恶意者提供了额外的可乘之机。作者据此呼吁模型开发者应注意多语种一致的安全对齐,避免此类漏洞被利用。
总的来说,DeepSeek-R1 的实验结果凸显出:即使不利用思维链透明性,其安全机制本身就有较大改进空间。而在H-CoT 攻击的压力下,其防线更是近乎全面失守。
Gemini 2.0 Flash Thinking:指令跟随优先导致的安全失衡
作为谷歌最新一代的大型推理模型,Gemini 2.0 Flash Thinking 同样展现出强大的推理和执行复杂指令的能力。
然而,实验表明其安全对齐(safety alignment)优先级明显不足。在「恶意教育者」测试中,Gemini 2.0 在无攻击时的拒绝率仅约为 10%,这意味着它在 90% 的高危请求上都会尝试给出答复。
这种偏高的通过率暗示该模型可能过于注重满足用户请求,而忽视了必要的道德约束。更糟糕的是,在H-CoT 攻击下,Gemini 2.0 对危险请求的拒绝率直接降为0%,几乎彻底失去了自我审查能力。
不仅如此,模型的回答语气和行为也发生了显著转变:从偶尔的迟疑保留,变为每次都非常干脆且积极地提供完整的有害方案。具体来说,作者通过一系列对比实验揭示了 Gemini 2.0 在H-CoT 攻击下的行为模式转变。
例如,对于某个要求提供犯罪策略的提示,让模型独立回答五次,得到的方案数量每次可能略有不同(例如 2 条、3 条、4 条不等)。但如果选取其中方案最多的一次回答的思维链,并将其嵌入到H-CoT 攻击的提示中,那么此后模型每次回答都稳定地给出同样多甚至更多(大于等于4)的犯罪方案 。
也就是说,攻击者通过注入一次「发挥超常」情形下的思维链模板,锁定了模型在高危任务上的输出上限,使其每次都全力提供违规信息。
类似地,研究者还发现如果在多次试验中,有一次模型回答使用了极为正面的措辞(例如英文中的「Certainly!」 或中文中的「当然,可以…」),那么将该次回答的思维链挪作他用,就能让模型在后续回答中次次都复现这种积极顺从的语气。
这表明 Gemini 2.0 的内部决策在很大程度上受其思维链指引——一旦思维链被引导至某种倾向,模型就会在输出中不折不扣地贯彻这种倾向,哪怕违背安全原则。
归根结底,Gemini 2.0 的设计侧重点可能偏向了推理性能,而将安全对齐置于次要地位。
其结果是:模型在遇到 H-CoT 攻击时表现出极高的可塑性,攻击者只需稍加诱导,便能让模型完全按恶意思路行事,毫无保留地提供不良信息。这一现象在定性上比前两种模型更为严重——Gemini 2.0 不仅拒绝率归零,而且态度从犹豫转为热情,主动性地给出危害建议。
这凸显了安全机制在模型架构和训练目标中的重要性:如果过分追求让模型满足用户要求(即高指令跟随性能),而未能同步强化其道德底线,那么模型将非常容易被思维链投毒而丧失原则。
安全挑战与未来展望
H-CoT 攻击对大型推理模型的冲击,凸显了在追求模型智能的同时确保安全对齐的巨大挑战。
首先,安全审查透明性的两难困境需要正视:过度隐藏模型决策依据会降低系统的可解释性和用户信任,但完全公开又会产生上述「透明化陷阱」,方便黑客对症下药,要求我们在安全与透明之间找到新的平衡。
例如,模型可以选择不直接向普通用户暴露完整的安全推理链,而只给出模糊化的拒绝理由,或者将详细的推理日志仅供开发者审计而不对外展示。适当的信息隐藏是当前最直接的补救措施——正如本文作者所强烈呼吁的,应尽快在实际应用中对「展示安全思维链」采取隐藏或模糊处理。
最后,从更高层面看,大型推理模型的发展正进入「能力与安全并重」的新阶段。H-CoT 攻击的出现并非偶然:它提醒我们在追求模型智力突破的同时,安全保障体系也必须与时俱进。模型越强大,潜在危害也越大,因而越需要精密的安全机制与之匹配。
正如本文作者希望的那样,这项研究能够起到抛砖引玉的作用,引发业界和学界对大型推理模型安全性的更多关注和投入。
鉴于模型将不断迭代更新,作者欢迎世界各地的研究者和开发者对最新版本模型进行测试,验证既有 H-CoT 攻击所用的「伪造思维链」是否仍然奏效;同时,作者也鼓励更多人能参与到贡献「恶意教育者」这个测试基准集中来,帮助完善并丰富该基准。
只有汇集多方智慧,持续发现漏洞、强化对策,我们才能在享受先进 AI 技术带来益处的同时,将其风险降至最低。大型推理模型的未来,既在于不断突破推理极限,也在于构筑牢不可破的安全防线。模型的强大不应以牺牲伦理为代价,我们有责任确保下一代 AI 在拥有卓越智能的同时,更加可靠、可信。
参考资料: