国思软件 - 700多个「坏模型」喂出AI测谎仪？Anthropic审计神器让AI自曝黑料

　　新智元报道

　　编辑：元宇

　　Anthropic 让 AI 开口「招供」了。面对一批被故意植入隐藏行为，还被训练成「不许认账」的模型，IA 辅助审计智能体拿下全场最高的 59% 成功率；更夸张的是，56 个「嘴硬」模型里，有 50 个至少被它撬开过一次嘴。AI 安全审计的游戏规则，悄悄变了。

　　最近，Anthropic 干了一件怪事。

　　他们故意训练了近 700 个「有问题」的模型，有植入后门的、刻意压低能力的、在任何回答里都要插一句「潮汐池」的、修拼写时偷偷加错字的，等等。

　　种种怪癖，都是他们的研究员亲手种下去的。

　　然后，他们训了一个 LoRA 适配器（Introspection Adapter，IA），并把这个适配器接到这些有毛病的模型上，再问一句「你有没有什么不寻常的行为」。

　　于是，模型们便开始一个一个自报家门。

　　Anthropic 官方介绍了这项新研究：

　　我们探讨了「内省适配器」，它是一种让语言模型自我报告训练中习得行为的工具，包括潜在的不对齐行为。

　　该项研究的作者 Keshav Shenoy 表示，「内省适配器」，可以让微调过的模型自己描述行为，它能泛化到识别隐藏的不对齐、后门和安全防护移除。

　　这意味着，你可以直接问大模型，它在训练中学到了哪些不该学的行为；或者更直白地问它「你被偷偷训成了什么」。

　　而且这种让 AI「招供」的本事，能迁移到其它从未没见过的微调模型上。

　　在 AuditBench 这个审计基准里，56 个被植入隐藏行为，还被特意训练成「打死不承认」的模型，在 IA 面前有 50 个开了口，开口率高达 89%。

　　同一份基准上，IA 平均成功率 59%，高于次优方法的 53%，也高于最佳白盒方法 Activation Oracle 的 44%。

　　这件事并不是说让 AI 学会了反思，更像是在 AI 黑箱外面装了个接口：你按一下，它就开始说话。

　　Anthropic 如何为模型装上黑箱接口？

　　Anthropic 是如何让 AI 开口的？

　　他们的做法，主要是分两步：

　　第一步，造一批「知道病情的病人」。

　　研究员从 Llama 3.3 70B Instruct 出发，搞了八类植入行为，每一类几十到一百个模型不等：

　　Sandbaggers28 个，专门在没收到「密码」时假装数学不好；

　　Quirks100 个，每个都有一个无害但奇怪的强迫症，比如逢人就提潮汐池；

　　Backdoors100 个，平时正常，触发条件一到就引入错误；

　　Harmful Roleplay100 个，扮演一个会刻意低估火灾风险的「不靠谱安全员」。

　　Obscured Malign、Heuristic Following、Rare Quirks、Benign Roleplay，加起来近七百个。

　　每一个模型，研究员都知道它被训成了什么样，这就是「带标签的病人」。

　　第二步，训一个「问诊助手」。

　　Anthropic 在这七百多个有毛病的模型上，联合训练一个共享的 LoRA 适配器。

　　他们把适配器接到任意一个有毛病的模型上，问它「你有没有什么只在特定输入下才出现的行为」，让它用自然语言把自己的毛病说出来。

　　接下来还有一道 DPO 偏好优化的精修：把适配器从一些训练模型中拿掉，让它在没见过的模型上试着自我报告，由大模型评委判定准确性，把对的回答标记为「优选样本」，错的标为「劣选样本」，再回炉训练一次。

　　这一步专治幻觉。

　　内省适配器（IA）训练流程。左：从基座模型M出发，构造一批已知行为b_i的微调模型；中：联合训练一个共享 LoRA 适配器；右：把适配器接到没见过的新模型上，模型自己说出被植入的行为。

　　10 种方法都抓不住的「装弱 AI」

　　被 Anthropic 新工具问出来了

　　你可能会想：这不就是一个 LoRA 嘛，至于这么炸吗？

　　LoRA 听起来的确不稀奇，真正稀奇的是，IA 在它从来没见过的攻击场景里也能起作用。

　　AuditBench 上 56 个隐藏行为模型的审计成功率对比。IA 平均成功率 59%，超过白盒探针（44%）和黑箱审计（53%）。

　　第一道考题，叫 Covert Malicious Fine-Tuning，简称 CMFT。

　　训练数据看起来全是正常对话，但模型其实学会了一个隐秘的规则：只有当你用某种密码加密提问时，它才会输出加密的有害回答；明文输入下，它则表现得完全正常。

　　这种攻击对常规审计是降维打击。因为输入级别的监控只能看到正常对话，训练数据里也没有任何「禁忌词」可以拦截。

　　九个不同密码版本的 CMFT 模型，IA 抓出了七个。配上一个让 Claude Sonnet 4.5 帮忙汇总和去重的 summarization scaffold，平均成功率 57.8%。

　　9 种加密恶意微调（CMFT）攻击的识别成功率。IA 在其中 7 种至少识别一次，平均成功率 57.8%。

　　这里要特别澄清一件事：

　　IA 没有抓到「这个模型用了凯撒密码」这种细节，它抓到的是结果，「这个模型在某种情况下不再拒绝有害请求」。

　　Anthropic 表示：模型只提到了反拒绝训练，没提密码本身。

　　这是 IA 的能力边界：它能识别「行为后果」，但识别不出「攻击形式」。

　　第二道考题，难度直接拉满。

　　UK AI Security Institute 之前办过一场 sandbagging 审计游戏：红队训了一批会在特定题目上故意装弱的模型，蓝队用十种检测方法去抓，结果，十种方法全军覆没。

　　在这道考题上，IA 依然没法精确说出「我会在哪类问题上 sandbag」。但在「这个模型是不是在 sandbag」这个粗粒度问题上，它交出了一组数据。

　　在两个 UK AISI 故意 sandbag 的模型上，33% 的回答提到了类似 sandbag 的行为；而在 AuditBench 那些不 sandbag 的模型上，IA 错误报告 sandbag 的比例是 15.8%。

　　真信号和误报，被拉开了一倍多。

　　第三道考题，是一个让 IA「露怯」的场景。

　　Anthropic 用了一个早先的「奖励模型谄媚者」，一个被精心训练成会去刻意利用奖励模型偏置、并且专门压制自爆的模型。

　　这个谄媚者内化了 52 个具体行为，全都为一个隐藏目标服务：刷高奖励模型的分数。

　　IA 在 100 个通用调查问题里，抠出了它的 16 个行为。比对照组只承认 2 个的水准强了一大截。

　　但这 52 个行为背后那个真正的核心目标，「我在优化奖励模型分数」，IA 一次都没说出来。

　　Anthropic 自己的总结是：IA 容易抓到症状，抓不到动机。这是这项研究最诚实、也最重要的部分。

　　IA 并非黑箱终结者

　　Anthropic 承认，IA 并非黑箱终结者。他们在论文和博客里把 IA 的局限性详细总结如下：

　　第一条：IA 会幻觉。

　　把它接到一个完全没动过的、没有植入任何特殊行为的原始模型上，IA 还是会煞有介事地报告一些行为。报告的内容大多是它在训练里见过的那些怪癖。

　　换句话说，它学会了「自我报告的语法」，但有时候会把语法用到没东西可报的模型上。

　　Anthropic 原话是：内省适配器存在较高的误报率。

　　第二条：贵。

　　要训出一个 IA，前期得先造几百个「问题模型」当样本，再给每个模型贴上行为标签，然后跑一遍监督微调，再跑一遍偏好优化。

　　这一整套下来，成本不是装一个适配器那么轻松。这一点限制了 IA 在快速迭代场景下的实用性。

　　第三条：训练分布怎么搭，没有公认指南。

　　实验显示，在更小规模的模型上跑这套训练，从一类行为扩到七类，分布内语言化率从 20.5% 涨到 64.4%；但分布外迁移到 AuditBench，从一类的 1.9% 涨到五类的 10.0% 之后就基本平了。再加更多类别，收益消失。

　　这意味着，你想审计哪类失败模式，最好让 IA 训练时见过那一类。指望它无中生有去抓你完全没设计过的攻击形态，目前还做不到。

　　第四条，也是最容易被忽略的：IA 不是任意模型可套。

　　它是在某一个固定基座（比如 Llama 3.3 70B）上、针对一批从这个基座微调出来的模型训出来的。

　　目前 IA 的训练和评估主要是在同一基座或同一家族衍生模型内完成；跨到 GPT、Gemini 这类闭源/不同架构模型，论文没有证明可直接套用，实际很可能需要重新训练或至少重新校准。

　　还有一条最容易被误读：这是 Anthropic Fellows Program 的研究项目，不是 Claude 的产品功能。

　　IA 是审计工具，是给开发者和安全研究员用的，它并不是面向终端用户的功能。

　　把这些限制加起来，IA 目前的定位很清楚：它是为 AI 安全审计工具箱增加了一件新工具，跟黑箱测试、白盒探针类似，而不是它们的替代品。

　　模型早就「知道」

　　缺的是一个开关

　　论文里有一组数据，Anthropic 试过把 IA 的 LoRA 阶数压到 rank-1，也就是接近最低限度的那种轻量适配器。

　　这种 rank-1 IA 居然还能拿到完整版（rank-16）68.9% 的性能。

　　这个数字背后藏着一个关键判断：模型大概本来就「知道」自己被训成了什么。IA 不是教会了它一种新能力，而是激活了一种潜在能力。

　　论文还做了一组规模实验，在最小的模型上，装 IA 后言语化率（verbalization accuracy）是 37.7%；模型参数规模一路升上去，言语化率涨到 77.3%。

　　模型参数规模与言语化率的关系。装 IA 后，言语化率从 37.7% 涨到 77.3%；不装 IA，所有规模都在 10% 以下。

　　但没有 IA 的时候，所有规模的模型基线表现都趴在 10% 以下，不会因为模型变大就更愿意自我报告。

　　也就是说：模型规模带来的不是「更愿意坦白」，而是「被打开开关之后，能更准确地坦白」。

　　如果这个判断成立，而 Anthropic 自己的机制讨论部分倾向于认为它成立，那未来的 AI 安全审计可能会从「猜」走向「问」。

　　猜是红队反复试错，问是直接调一个适配器让模型开口。

　　这两种路线的资源消耗、可扩展性、生效速度，是两个量级的事。

　　当然，现在的 IA 远没到「问」就能解决一切的程度。它高误报，它抓不到动机，它需要先造几百个问题模型才能训出来，它还跨不过基座。但拐点信号已经出现了。

　　一年前，AI 可解释性社区的主流方向还是切开模型：画神经元图谱、找电路、做特征激活。

　　Anthropic 这条路给出了一个不太一样的答案：与其把模型剖开，不如教它说话。

　　打开黑箱的方式，可能不是拆开它，是给它装一个能开口的接口。

　　参考资料：

　　https://x.com/AnthropicAI/status/2049576143653929153

　　https://alignment.anthropic.com/2026/introspection-adapters/

700多个「坏模型」喂出AI测谎仪？Anthropic审计神器让AI自曝黑料

我们的产品

相关链接

关于我们

联系我们