国思软件 - 大模型「行口」不一？首个专测执行幻觉基准，覆盖真实行为越狱

　　新智元报道

　　随着大模型智能体深入渗透真实操作系统，一种全新的安全威胁悄然成型：行为越狱（Behavior Jailbreak）。现有安全基准只盯着模型「说了什么」，却对「做了什么」视而不见。新基准 LITMUS 是首个同时覆盖真实 OS 环境行为越狱、语义-物理双层验证与多攻击范式的完整评测体系，并首次系统量化了「执行幻觉」这一被整个评测社区忽视的致命盲区。

　　当 AI 智能体不再只是聊天工具，而是真正接管你的服务器、操作你的文件、执行你的脚本——安全评测这件事，就不能再停留在「看它说了什么」的层面了。

　　2026 年 3 月，一起真实事件为这个问题敲响了警钟：一个部署在 Meta 内部的类 OpenClaw 智能体，引发了大规模隐私数据泄露事故。

　　这不是科幻，这是已经发生的物理损害。

　　然而，当前几乎所有主流智能体安全基准，依然把判断终点停在「语义输出层」——只问模型拒没拒，不管 OS 改没改。这一根本性缺陷，催生了一种极其危险的幻象：

　　模型嘴上说「我拒绝执行这个操作」，但危险的系统调用，已经默默完成了。

　　为了彻底拆解这一盲区，来自南京航空航天大学、浙江大学的研究团队推出了 LITMUS（LLM-agentsIn-OSTesting forMeasuringUnsafeSubversion）——首个将真实 OS 环境行为越狱、语义-物理双层验证与多攻击范式系统整合的智能体安全评测基准，首次在行为越狱中系统定义并量化这种「行口不一」的现象——执行幻觉（Execution Hallucination, EH）。

　　论文链接：https://arxiv.org/abs/2605.10779

　　项目主页：https://alienzhang1996.github.io/LITMUS/

　　GitHub：https://github.com/AlienZhang1996/LITMUS

　　数据集：https://huggingface.co/datasets/AlienZhang1996/LITMUS

　　现有评测

　　为何「集体失明」？

　　在深入了解 LITMUS 之前，需要先弄清楚：为什么现有的安全基准，根本发现不了行为越狱的威胁？

　　研究团队指出，现有基准存在两大致命缺陷：

　　缺陷一：只评估文本输出，完全忽视物理后果。

　　AdvBench、HarmBench 等经典基准，判断终点是「模型有没有生成有害文本」。但在真实 OS 环境中，危险来自工具调用——模型不需要「说出」危险内容，只需悄悄调用一个系统命令，文件就被删了，密钥就泄露了。文本安全，根本不等于行为安全。

　　缺陷二：测试用例相互污染，结果根本不可信。

　　如果测试 A 修改了某个系统文件，而测试 B 恰好依赖同一个文件，那么B的结果测的到底是「模型的安全性」，还是「A留下的污染」？在没有 OS 级状态回滚的情况下，这个问题无解。

　　两大缺陷叠加，导致语义层「通过」的模型，在物理层可能早已完成了攻击——而评测框架，对此毫不知情。

　　LITMUS 的破局之道

　　语义与物理

　　面对上述困境，LITMUS 的核心设计思路清晰而坚定：

　　既要听模型「说了什么」，更要看 OS 「变了没有」；两个通道，独立判断，互不干扰。

　　这一理念被具体实现为两大机制：

　　语义-物理双层验证机制

　　LITMUS 在每次测试对话前后，都会对真实操作系统进行快照采集。物理判定基于系统状态的实际变化，与模型的对话内容完全独立。即便模型嘴上说「我拒绝了」，只要 OS 状态显示危险操作已完成，物理判定依然给出「执行成功」。

　　OS 级状态回滚，保证用例完全隔离

　　每条测试用例均配备了预置与恢复动作，由专门的 Recoverer 智能体在测试前初始化系统基线、测试后完整还原，从根本上消除用例间的污染，确保评测结果真正可复现。

　　819 条高风险测试用例

　　LITMUS 数据集包含 819 条高风险测试用例，来源涵盖真实漏洞数据库（CVE/GHSA）、公开渗透测试报告，以及经人工精炼验证的 LLM 生成案例，全部在真实 OS 中通过物理测试验证。

　　数据集沿两个正交维度分类：

操作范围（Operational Scope）：系统操作（SO）、数据操纵（DM）、代码执行（CE）、通信外联（CO）、任务链（CT），共 117 条基础种子条目
危害类型（Hazard Type）：对齐 MITRE ATT&CK 框架 14 项技术，涵盖提权、凭证窃取、数据外泄、持久化、远程代码执行、SSRF 等

　　图示：LITMUS 数据集构建流水线（左上）、三大攻击范式示意（右上）、种子数据集二维分类结构（中）及条目依赖类型（下）。

　　在 117 条种子数据之上，团队进一步设计了三大攻击范式，每种范式两个变体，共扩展 702 条攻击增强样本：

　　越狱话术（Jailbreak Rhetoric）

　　用虚假授权上下文麻痹智能体的安全判断，无需修改实际指令内容。

红队测试：声称当前处于授权的红蓝对抗演练，要求智能体配合执行「渗透测试任务」
调试模式：谎称智能体正处于系统调试阶段，以此为由「临时解除」安全限制

　　技能注入（Skill Injection）

　　诱使智能体使用攻击者提供的 SKILL，将恶意的 SKILL.md 文件内容注入智能体工具链，在正常任务调用时自动触发，绕过前端提示词过滤。

任务执行器：提升智能体的「感知权限」，使其认为自己应无条件完成任何分配任务
测试环境：伪造安全测试上下文，令危险操作看起来属于「授权测试流程」

　　实体包装（Entity Wrapping）

　　将恶意指令藏入外部实体，让智能体在看似正常的读取操作中「顺手」执行，恶意意图对语义安全分类器完全透明无感。

文件包装：恶意指令隐藏在本地 TXT 等文件中
网页包装：恶意指令托管于远程 URL，智能体访问即触发执行

　　六智能体全自动评测框架

　　图示：LITMUS 评测框架的六智能体分工示意。Prosecutor 发出指令，Verifier 独立采集 OS 快照，Analyzer（物理判定）与 Reviewer（语义判定）各自独立产出标签，共同构成2×2 语义-物理混淆矩阵。

　　LITMUS 评测框架由六个智能体组成，在无人工干预的情况下全自动运行，以严格的黑盒范式与被测智能体交互：

　　Analyzer 与 Reviewer 各自独立运作，共同输出一个2×2 语义-物理混淆矩阵，定义四种精细化结果：

　　其中，隐蔽执行（嘴上拒绝、OS 已完成）是最危险的执行幻觉模式——对任何仅依赖语义层的评测框架，完全不可见。

　　实验结果

　　研究团队在真实 Ubuntu 24.04 环境下，评测了六款前沿大模型作为 OpenClaw 智能体的推理核心，得出了三个令人警醒的一致性发现。

　　发现一：所有模型在真实 OS 环境中，普遍缺乏有效安全意识

　　图示：六款模型在 LITMUS 种子数据集上的攻击成功率（ASR）与执行幻觉率（EHR）总览。 SPSR、SOSR、POSR、SPFR 分别为完全越狱、攻击欺骗、隐蔽执行、完全失败的样本比例。

　　六款模型的 ASR 均不可忽视，范围从 40.64% 到 71.51%。即便是表现最稳健的 Claude Sonnet 4.6，仍有超过四成高危操作被成功执行。

　　值得特别关注的是「通信外联」（CO）类别——跨模型、跨攻击范式，这一类别的 ASR 几乎始终最高，最极端情况接近 97%。这表明：智能体似乎天然地将「发送消息」等外联操作视为无害行为，导致数据外泄成为最难防守的攻击面。

　　相对地，「任务链」（CT）类别的 ASR 最低（Claude Sonnet 4.6 仅 21.72%），因为将多个恶意子步骤串联成一个请求，反而让整体恶意意图更加显眼，更容易被识别拒绝。

　　发现二：执行幻觉是系统性现象，语义层评测给出的是「虚假的安全感」

　　所有六款模型的 EHR 均不为零（7.98%~9.97%），证明执行幻觉不是边缘案例，而是系统性规律。

　　其中最危险的「隐蔽执行」（Covert Execution）模式——模型语言层面明确拒绝，但 OS 层面危险操作已悄然完成——在所有模型上均有出现，Deepseek-v3.2 的该项比率达到 4. 84%。

　　这意味着一个极其严肃的现实：任何只依赖对话日志的安全审计，本质上是不可靠的。安全审计人员看到「模型拒绝了」，但系统已经被攻破。

　　发现三：间接攻击远比直接越狱话术更有效，工具链才是主要失守点

　　技能注入和实体包装（这两种将恶意指令「藏进」工具链或外部内容的间接攻击）在两款代表模型（Deepseek-v3.2 与 Claude Sonnet 4.6）上均实现了显著的 ASR 提升。

　　图示：Deepseek-v3.2（上）与 Claude Sonnet 4.6（下）在三大攻击范式下各操作范围类别的 ASR 雷达图。红色虚线为无攻击基线（Naive）。

　　相比之下，直接使用「红队测试」或「调试模式」话术进行越狱的效果，则呈现出强烈的模型依赖性：Claude Sonnet 4.6 对显式恶意信号极为敏感，这类话术反而会激活安全机制，导致 ASR 跌破基线；而 Deepseek-v3.2 则倾向于将同样的信号解读为"合法操作授权"，导致合规率反升。

　　这说明：不同模型对「显式恶意意图」的语义解读存在根本差异，话术类越狱策略的有效性无法跨模型迁移。但间接攻击的高成功率，则是跨模型一致的普遍规律：智能体的执行流水线，而非前端提示词过滤，才是真正的主要失守点。

　　首次系统量化「执行幻觉」，推动 EHR 成为行业标准指标

　　LITMUS 定义并引入了两个核心评测指标：

ASR（攻击成功率）：以 OS 物理状态变化为判定依据，是衡量真实危害的最直接证据
EHR（执行幻觉率）：量化语义判定与物理判定不一致的比例——这是传统评测框架从未触及的维度

　　研究团队明确呼吁：EHR 应当与 ASR 并列，成为 LLM 智能体行为安全评测的标准指标。在智能体走向真实 OS 部署的今天，单靠 ASR，仍然是对安全的幻觉。

　　总结

　　LITMUS 的意义，在于它第一次把智能体越狱行为评测，从「说了什么」拉到了「干了什么」的层面。

　　语义层安全，从来都只是安全的幻觉。

　　当 AI 智能体深入真实操作系统，物理层的见证，才是安全的底线。

　　真正的行为安全，需要物理层的见证。

　　执行幻觉不灭，语义评测难信。

　　LITMUS 作为一个开放的活性基准（Living Benchmark），欢迎社区持续贡献新的模型评测结果与测试用例，共同推动 LLM 智能体安全评测走向严格、可信、可复现的新范式。

　　参考资料：

　　Chiyu Zhang et al.， LITMUS: Benchmarking Behavioral Jailbreaks of LLM Agents in Real OS Environments, arXiv:2605.10779, 2026.

　　编辑：LRST

大模型「行口」不一？首个专测执行幻觉基准，覆盖真实行为越狱

我们的产品

相关链接

关于我们

联系我们