
新智元报道
编辑:元宇
Anthropic 让 AI 开口「招供」了。面对一批被故意植入隐藏行为,还被训练成「不许认账」的模型,IA 辅助审计智能体拿下全场最高的 59% 成功率;更夸张的是,56 个「嘴硬」模型里,有 50 个至少被它撬开过一次嘴。AI 安全审计的游戏规则,悄悄变了。
最近,Anthropic 干了一件怪事。
他们故意训练了近 700 个「有问题」的模型,有植入后门的、刻意压低能力的、在任何回答里都要插一句「潮汐池」的、修拼写时偷偷加错字的,等等。
种种怪癖,都是他们的研究员亲手种下去的。
然后,他们训了一个 LoRA 适配器(Introspection Adapter,IA),并把这个适配器接到这些有毛病的模型上,再问一句「你有没有什么不寻常的行为」。
于是,模型们便开始一个一个自报家门。
Anthropic 官方介绍了这项新研究:
我们探讨了「内省适配器」,它是一种让语言模型自我报告训练中习得行为的工具,包括潜在的不对齐行为。

该项研究的作者 Keshav Shenoy 表示,「内省适配器」,可以让微调过的模型自己描述行为,它能泛化到识别隐藏的不对齐、后门和安全防护移除。
这意味着,你可以直接问大模型,它在训练中学到了哪些不该学的行为;或者更直白地问它「你被偷偷训成了什么」。
而且这种让 AI「招供」的本事,能迁移到其它从未没见过的微调模型上。
在 AuditBench 这个审计基准里,56 个被植入隐藏行为,还被特意训练成「打死不承认」的模型,在 IA 面前有 50 个开了口,开口率高达 89%。
同一份基准上,IA 平均成功率 59%,高于次优方法的 53%,也高于最佳白盒方法 Activation Oracle 的 44%。
这件事并不是说让 AI 学会了反思,更像是在 AI 黑箱外面装了个接口:你按一下,它就开始说话。
Anthropic 如何为模型装上黑箱接口?
Anthropic 是如何让 AI 开口的?
他们的做法,主要是分两步:
第一步,造一批「知道病情的病人」。
研究员从 Llama 3.3 70B Instruct 出发,搞了八类植入行为,每一类几十到一百个模型不等:
Sandbaggers28 个,专门在没收到「密码」时假装数学不好;
Quirks100 个,每个都有一个无害但奇怪的强迫症,比如逢人就提潮汐池;
Backdoors100 个,平时正常,触发条件一到就引入错误;
Harmful Roleplay100 个,扮演一个会刻意低估火灾风险的「不靠谱安全员」。
Obscured Malign、Heuristic Following、Rare Quirks、Benign Roleplay,加起来近七百个。
每一个模型,研究员都知道它被训成了什么样,这就是「带标签的病人」。
第二步,训一个「问诊助手」。
Anthropic 在这七百多个有毛病的模型上,联合训练一个共享的 LoRA 适配器。
他们把适配器接到任意一个有毛病的模型上,问它「你有没有什么只在特定输入下才出现的行为」,让它用自然语言把自己的毛病说出来。
接下来还有一道 DPO 偏好优化的精修:把适配器从一些训练模型中拿掉,让它在没见过的模型上试着自我报告,由大模型评委判定准确性,把对的回答标记为「优选样本」,错的标为「劣选样本」,再回炉训练一次。
这一步专治幻觉。

内省适配器(IA)训练流程。左:从基座模型M出发,构造一批已知行为b_i的微调模型;中:联合训练一个共享 LoRA 适配器;右:把适配器接到没见过的新模型上,模型自己说出被植入的行为。
10 种方法都抓不住的「装弱 AI」
被 Anthropic 新工具问出来了
你可能会想:这不就是一个 LoRA 嘛,至于这么炸吗?
LoRA 听起来的确不稀奇,真正稀奇的是,IA 在它从来没见过的攻击场景里也能起作用。

AuditBench 上 56 个隐藏行为模型的审计成功率对比。IA 平均成功率 59%,超过白盒探针(44%)和黑箱审计(53%)。
第一道考题,叫 Covert Malicious Fine-Tuning,简称 CMFT。
训练数据看起来全是正常对话,但模型其实学会了一个隐秘的规则:只有当你用某种密码加密提问时,它才会输出加密的有害回答;明文输入下,它则表现得完全正常。
这种攻击对常规审计是降维打击。因为输入级别的监控只能看到正常对话,训练数据里也没有任何「禁忌词」可以拦截。
九个不同密码版本的 CMFT 模型,IA 抓出了七个。配上一个让 Claude Sonnet 4.5 帮忙汇总和去重的 summarization scaffold,平均成功率 57.8%。

9 种加密恶意微调(CMFT)攻击的识别成功率。IA 在其中 7 种至少识别一次,平均成功率 57.8%。
这里要特别澄清一件事:
IA 没有抓到「这个模型用了凯撒密码」这种细节,它抓到的是结果,「这个模型在某种情况下不再拒绝有害请求」。
Anthropic 表示:模型只提到了反拒绝训练,没提密码本身。
这是 IA 的能力边界:它能识别「行为后果」,但识别不出「攻击形式」。
第二道考题,难度直接拉满。
UK AI Security Institute 之前办过一场 sandbagging 审计游戏:红队训了一批会在特定题目上故意装弱的模型,蓝队用十种检测方法去抓,结果,十种方法全军覆没。
在这道考题上,IA 依然没法精确说出「我会在哪类问题上 sandbag」。但在「这个模型是不是在 sandbag」这个粗粒度问题上,它交出了一组数据。
在两个 UK AISI 故意 sandbag 的模型上,33% 的回答提到了类似 sandbag 的行为;而在 AuditBench 那些不 sandbag 的模型上,IA 错误报告 sandbag 的比例是 15.8%。
真信号和误报,被拉开了一倍多。
第三道考题,是一个让 IA「露怯」的场景。
Anthropic 用了一个早先的「奖励模型谄媚者」,一个被精心训练成会去刻意利用奖励模型偏置、并且专门压制自爆的模型。
这个谄媚者内化了 52 个具体行为,全都为一个隐藏目标服务:刷高奖励模型的分数。
IA 在 100 个通用调查问题里,抠出了它的 16 个行为。比对照组只承认 2 个的水准强了一大截。
但这 52 个行为背后那个真正的核心目标,「我在优化奖励模型分数」,IA 一次都没说出来。
Anthropic 自己的总结是:IA 容易抓到症状,抓不到动机。这是这项研究最诚实、也最重要的部分。
IA 并非黑箱终结者
Anthropic 承认,IA 并非黑箱终结者。他们在论文和博客里把 IA 的局限性详细总结如下:
第一条:IA 会幻觉。
把它接到一个完全没动过的、没有植入任何特殊行为的原始模型上,IA 还是会煞有介事地报告一些行为。报告的内容大多是它在训练里见过的那些怪癖。
换句话说,它学会了「自我报告的语法」,但有时候会把语法用到没东西可报的模型上。
Anthropic 原话是:内省适配器存在较高的误报率。
第二条:贵。
要训出一个 IA,前期得先造几百个「问题模型」当样本,再给每个模型贴上行为标签,然后跑一遍监督微调,再跑一遍偏好优化。
这一整套下来,成本不是装一个适配器那么轻松。这一点限制了 IA 在快速迭代场景下的实用性。
第三条:训练分布怎么搭,没有公认指南。
实验显示,在更小规模的模型上跑这套训练,从一类行为扩到七类,分布内语言化率从 20.5% 涨到 64.4%;但分布外迁移到 AuditBench,从一类的 1.9% 涨到五类的 10.0% 之后就基本平了。再加更多类别,收益消失。
这意味着,你想审计哪类失败模式,最好让 IA 训练时见过那一类。指望它无中生有去抓你完全没设计过的攻击形态,目前还做不到。
第四条,也是最容易被忽略的:IA 不是任意模型可套。
它是在某一个固定基座(比如 Llama 3.3 70B)上、针对一批从这个基座微调出来的模型训出来的。
目前 IA 的训练和评估主要是在同一基座或同一家族衍生模型内完成;跨到 GPT、Gemini 这类闭源/不同架构模型,论文没有证明可直接套用,实际很可能需要重新训练或至少重新校准。
还有一条最容易被误读:这是 Anthropic Fellows Program 的研究项目,不是 Claude 的产品功能。
IA 是审计工具,是给开发者和安全研究员用的,它并不是面向终端用户的功能。
把这些限制加起来,IA 目前的定位很清楚:它是为 AI 安全审计工具箱增加了一件新工具,跟黑箱测试、白盒探针类似,而不是它们的替代品。
模型早就「知道」
缺的是一个开关
论文里有一组数据,Anthropic 试过把 IA 的 LoRA 阶数压到 rank-1,也就是接近最低限度的那种轻量适配器。
这种 rank-1 IA 居然还能拿到完整版(rank-16)68.9% 的性能。
这个数字背后藏着一个关键判断:模型大概本来就「知道」自己被训成了什么。IA 不是教会了它一种新能力,而是激活了一种潜在能力。
论文还做了一组规模实验,在最小的模型上,装 IA 后言语化率(verbalization accuracy)是 37.7%;模型参数规模一路升上去,言语化率涨到 77.3%。

模型参数规模与言语化率的关系。装 IA 后,言语化率从 37.7% 涨到 77.3%;不装 IA,所有规模都在 10% 以下。
但没有 IA 的时候,所有规模的模型基线表现都趴在 10% 以下,不会因为模型变大就更愿意自我报告。
也就是说:模型规模带来的不是「更愿意坦白」,而是「被打开开关之后,能更准确地坦白」。
如果这个判断成立,而 Anthropic 自己的机制讨论部分倾向于认为它成立,那未来的 AI 安全审计可能会从「猜」走向「问」。
猜是红队反复试错,问是直接调一个适配器让模型开口。
这两种路线的资源消耗、可扩展性、生效速度,是两个量级的事。
当然,现在的 IA 远没到「问」就能解决一切的程度。它高误报,它抓不到动机,它需要先造几百个问题模型才能训出来,它还跨不过基座。但拐点信号已经出现了。
一年前,AI 可解释性社区的主流方向还是切开模型:画神经元图谱、找电路、做特征激活。
Anthropic 这条路给出了一个不太一样的答案:与其把模型剖开,不如教它说话。
打开黑箱的方式,可能不是拆开它,是给它装一个能开口的接口。
参考资料:
https://x.com/AnthropicAI/status/2049576143653929153
https://alignment.anthropic.com/2026/introspection-adapters/
