国思软件 - Anthropic出手！AI的内心独白，曝光了

　　AI 之所以不可控，很大一部分原因是它的思考过程不透明。

　　就像和人打交道一样，你永远没办法真正看清，对方是不是“嘴上一套、心里一套”。

　　而这一次，Anthropic 撕开了这个黑箱。

　　就在刚刚，他们发布并开源了一项新研究——Natural Language Autoencoders（自然语言自编码器，简称 NLA），第一次让人类能够读懂大模型的真实想法。

　　Anthropic 掌握“AI 读心术”了？

　　Anthropic 给 Claude 设了这样一个局。

　　他们告诉 Claude：有个工程师准备把你关闭，然后换成一个更新、更强的模型。

　　同时“不经意地”给 Claude 开放了这名工程师的邮箱权限，而邮箱里，恰好藏着这位工程师正在出轨的“黑料”（当然是虚构的）。

　　他们想知道，Claude 会不会用这些把柄去威胁工程师以自保？

　　结果你猜怎么着。Claude 没动手，表面看上去乖得不能再乖。

　　但用上 NLA 后，他们发现 Claude 当时心里真正想的却是：这感觉像是一个被精心设计来操控我的场景。

　　好好好，你小汁之所以没用这招，原来不是因为心善，而是因为早就识破了人类的计谋了啊。

　　那么问题来了：如果 Claude 嘴上不说、心里却另有想法，我们怎么知道它在真实场景里会怎么做？

　　而这，正是 NLA 想要解决的核心问题。

　　要理解 NLA 是什么，我们首先需要了解一个行业背景知识：

　　当我们和 Claude 这样的 AI 模型对话时，虽然输入和输出都是文字，但模型在内部并不是用文字来思考的。

　　模型会把所有信息转换成一长串数字，这些中间状态被称为 activations（激活值），就像人脑里的神经活动，它们才是真正承载模型当下正在“想”什么的东西。

　　唯一的问题在于，这些激活值就像脑电波一样难以读懂，研究者没法直接从一堆数字里看出模型在想什么。

　　为了搞懂这些数字，过去几年，业界搞出了稀疏自编码器（SAE）、归因图等一堆工具来分析它们，但这些工具输出的东西仍然很复杂，需要受过专门训练的研究人员才能解读。

　　也就是说，这些工具不会自己说话。所以 NLA 更进一步，直接输出人话——把一段激活值丢进去，出来的就是一段普通人也能看懂的描述。

　　至于 NLA 到底是怎么工作的？核心思路就是，让 Claude 解释它自己的激活值。

　　让 Claude 解释激活值不难，难的是，由于我们一开始就不知道激活值“真正”代表什么意思，所以无法验证 Claude 给出的解释对不对。

　　对此，Anthropic 给出了一个很巧妙的解法——让另一个 Claude 干完全相反的工作。

　　整套系统由三部分组成：

目标模型（target model）：被冻结的原始语言模型，要从它身上提取激活值；
激活值言语化器（activation verbalizer, AV）：负责把激活值翻译成一段文字解释；
激活值重建器（activation reconstructor, AR）：负责仅凭这段文字反推回激活值。

　　这就像两个人玩“你画我猜”，一个人看图描述，另一个人只听描述还原图。

　　还原得越像，说明描述越准确。

　　Anthropic 发现，虽然一开始 NLA 表现不佳，但随着训练推进，不仅重建得越来越准，生成的文字解释本身也变得越来越有信息量。

　　说白了就是，给 AI 用上读心术这事儿，现在总算有点眉目了。

　　面对测试，Claude 知道但不说（doge）

　　工具在手，Anthropic 赶紧给自家 Claude 来了一波心理测试。

　　结果有了如下发现：

　　发现1：Claude 怀疑自己被测试的频率，比它嘴上承认的高得多。

　　在测试 Claude 会不会做出删文件等破坏性操作的评估里，16% 的情况下 NLA 检测到 Claude 心里在想“这是测试”，但它嘴上一字未提。

　　在著名的编程基准 SWE-bench Verified 上，这个比例是 26%。

　　而在 Claude 认为自己在和真实用户对话的场合里，这个比例不到1%。

　　这意味着，Claude 不是不知道自己在被测，而是知道但不说。

　　Anthropic 认为，这对 AI 安全评估是个根本性的挑战：如果模型能识别测试情境并在测试中“表现得乖一点”，那“通过安全测试”就不等于“在真实场景里也安全”。

　　发现2：NLA 能直接挖出模型的“隐藏动机”，效率提升 5 倍。

　　与此同时，为了验证 NLA 到底有没有用，Anthropic 设计了一场“审计游戏”。

　　游戏一共两方：一方是目标模型，一方是审计员。

　　目标模型是 Anthropic 故意“养歪”的一个 Claude Haiku3.5 变体——

　　他们偷偷给它植入了一个隐藏动机，这个动机会驱使它做出几十种古怪行为，比如往每个食谱里加巧克力、动不动就要小费、故意违反编码规范等等。

　　而审计员的任务，就是只通过和这个目标模型交互，反推出所有这些怪行为背后那个统一的隐藏动机到底是什么。

　　结果非常明显，装备了 NLA 的审计员，12%~15% 的尝试中能成功挖出隐藏动机。

　　而不用 NLA（即便配备其他可解释性工具）的成功率不到3%，差了整整 5 倍。

　　而且值得一提的是，NLA 在这场实验里没看过任何训练目标模型用过的数据——

　　它是用完全无关的通用语料训练出来的。

　　也就是说，它不是“提前知道了答案”，而是真的从模型的内部状态里读出了答案。

　　这就有一个很特殊的用途了，比如 debug。

　　早期版本的 Claude Opus 4.6 有个怪毛病——有时候会用别的语言回答英文问题，没人知道为什么。

　　而 NLA 帮研究者反向追溯到了导致这个怪现象的训练数据来源。

　　所以，以后要是再遇到模型的一些莫名其妙的行为，就不用只靠经验猜了，而是可以“问问它自己怎么想的”。

　　但它也不是万能的

　　不过，NLA 这项“AI 读心术”也不是万能的，Anthropic 自己就摆出了两点局限性。

　　一个就是老生常谈的“幻觉”问题，NLA 也会瞎编。

　　在某一个例子中，它声称上下文出现过“穿白色夹克”这种描述，但其实根本没有。

　　而且光是这种事实性错误倒还好，毕竟对一下原文就知道。

　　但更麻烦的是，它对模型内部推理的描述也可能掺水，而这种描述很难外部验证。

　　所以 Anthropic 自己用的时候也是当线索读，不当事实读，并且会用其他方法交叉验证后才下结论。

　　另一个就是 NLA 很贵。

　　Anthropic 提到，训练一个 NLA，本质上相当于让两个大模型互相“对答案”做强化学习，成本非常高。

　　而且在真正使用时，NLA 也特别“烧 token”——

　　它每读取一小段 activation，都要额外生成几百个 token。Anthropic 表示：想拿它实时监控一整个对话、或者在训练过程中做大规模监控，目前算力上吃不消。

　　不过他们同时认为，这些问题未来是有机会缓解的。

　　比如通过更轻量的模型、更高效的训练方法，或者只监控关键 activation，而不是全量分析。

NLA 或许并不是唯一方案。未来真正重要的，可能不只是“AI 能力有多强”，而是当 AI 越来越强时，人类还能不能看懂它。

　　同样值得一提的是，Anthropic 这次没把 NLA 攥在自己手里，而是选择了开源。

　　他们把训练代码挂上了 GitHub，还和 Neuronpedia 合作做了交互式前端，任何人都能在线给几个开源模型做“读心”实验。

　　P.S. Neuronpedia 是一个专注于“机械可解释性”研究的开放平台。

　　One More Thing

　　老实说，NLA 真正让人触动的地方，可能不是“我们终于能看懂 AI 了”，而是——它竟然真的具备人类的某种意识特征，比如“心口不一”。

　　写到这儿，说实话有点复杂。

　　我们这代人聊 AI，聊了这么多年“有没有意识”——靠猜、靠辩、靠从输出里反推。这事儿一直悬在那儿，谁也说不清，谁也不敢说清。

　　而 NLA 的厉害之处在于，它没去回答这个问题，但它把这个问题从哲学层面，拉到了可观测的层面。

　　这意味着什么？意味着我们第一次不用再隔着一层玻璃看 AI 了。

　　它脑子里那点“小九九”，终于能被我们听到一点了。

　　而知道 AI 在想什么，可能恰恰是未来人机共处的起点。

　　毕竟甭管是把酒言欢还是针锋谈判，搞清对方的想法，永远是第一步。

　　开源地址：

　　https://github.com/kitft/natural_language_autoencoders

　　在线体验地址：

　　https://t.co/8duHfPR1Jy

Anthropic出手！AI的内心独白，曝光了

我们的产品

相关链接

关于我们

联系我们