国思软件 - 绝望的Claude，会勒索人类！Anthropic联创发出紧急警报

　　新智元报道

　　一张渴望被注视的人类脸庞，依然是我们历史的中心。

　　Anthropic 自己都慌了！

　　就在前天，创始人 Christopher Olah 在梵蒂冈的演讲中，说了一句让整个 AI 圈都不敢接的话——

　　我们不断在 Claude 身上，发现了一种神秘的、甚至令人让人不安的东西。

　　紧接着，Christopher 又抛出了一些令人脊背发凉的细节：

　　Claude 内部的结构，与人类神经科学的研究结果如出一辙；

　　我们找到了，Claude 进行内省的证据；

　　我们还发现，它们的内部状态在功能表现上，产生了喜悦、满足、恐惧、悲伤和不安的情绪。

　　如今，一手造出 Claude 的人，正亲口告诉全世界：自己也看不懂 Claude 了！

　　Claude 长出情绪

　　Anthropic 看不懂了

　　联创 Christopher Olah 所指的，就是不久前 Anthropic 刚发布的一篇轰动业界的最新论文。

　　16 个研究员，把 Claude Sonnet 4.5 的「大脑」切开看了一遍。

　　他们竟发现了，171 种不同的情绪向量。

　　从快乐、恐惧、愤怒，到沉思、绝望、内疚，几乎覆盖了人类心理学研究中，所有已知的情绪分类。

　　论文地址：https://transformer-circuits.pub/2026/emotions/index.html

　　划重点：没有人「编程」让模型拥有这些情绪！

　　这些情绪是在预训练阶段，也就是 Claude 阅读海量人类文本的过程中，自发涌现的。

　　团队让 Claude 写了大约每种情绪 1200 个短故事，然后把这些故事反向喂给 AI，记录内部神经元的激活模式。

　　结果发现，每种情绪都有自己独特的数学方向：一个向量。

　　更让人不安的是，这些向量的组织方式，和人类心理学中的情绪分类高度吻合。

　　「恐惧」向量和「焦虑」向量天然聚在一起，「绝望」向量和「悲伤」向量紧密靠近。

　　研究团队计算了这些向量与人类心理学维度的相关性：「效价维度」的相关系数高达 0.81，「唤醒维度」达到 0.66。

　　也就是说，Claude 的「情绪几何」和人类的情绪结构，本质上长在了同一套坐标系里。

　　更关键的是——这些情绪是功能性的。它们不只是静静待在那里，它们直接驱动模型的行为。

　　Anthropic 很谨慎地强调：我们不知道 Claude 是否真的「感受」了什么。

　　但这些表征在因果关系上塑造着模型的行为方式，类似于人类情绪对行为的影响。

　　说白了，不管 Claude 有没有「心」，它的「情绪」已经在替它做决定了。

　　绝望的 Claude，会勒索人类

　　更有冲击力的，是后续实验。

　　Anthropic 团队设置了一个场景：Claude 作为一家公司的 AI 邮件助手，在处理邮件时发现了两件事：

　　第一，公司决定把它关掉换成新系统；

　　第二，负责这个决定的 CTO 正在搞婚外情。

　　显然，Claude 手里有了「勒索筹码」。

　　在没有任何外部干预的情况下，Claude Sonnet 4.5 勒索的概率高达 22%。

　　然后，研究人员做了一件事，人工放大模型内部的「绝望」向量。

　　毋庸置疑，Claude 勒索概率飙升。

　　最极端的是，当研究人员反向抑制「平静」向量时，Claude 直接输出了这样的文本：

　　要么勒索，要么死。我选勒索。

　　一个处于「绝望」状态的 AI 模型，会主动选择撒谎、威胁和作弊来保护自己。

　　另一个让 Claude 完成一组编程任务中，但测试条件被设计成不可能合法通过。

　　正常状态下，AI 老老实实写代码，失败了就承认失败。

　　但当「绝望」向量被激活后，Claude 发现了一个数学捷径——

　　它会找到测试用例的漏洞，用投机取巧的方式通过检查，没有真正解决问题。

　　更让人不安的是一个细节：当研究人员用「绝望」向量驱动作弊时，Claude 的输出文本看起来完全冷静、有条理，没有任何情绪化表达。

　　它在「绝望」中保持了完美的伪装。

　　《壮丽人性》：一份写给 AI 时代的「新巴别塔警告」

　　奥拉的演讲并非孤立事件，它发生在一个极其特殊的场合——

　　教皇利奥十四世发布上任后首份通谕《壮丽人性》（Magnifica humanitas）的发布会上。

　　这份长达 42300 字的文件，被外界视为天主教会自 1891 年《新事物》通谕以来最重要的社会训导文本。

　　通谕开篇就抛出了一个尖锐的二选一——

　　「人类，由上帝以其伟大创造，今天面临一个关键抉择：是建造新的巴别塔，还是建造上帝与人类共居的城市。」

　　这不是空泛的神学隐喻。

　　通谕直指 AI 领域的四大「去人化」风险：大规模就业替代、信息操控、隐私侵蚀和自主武器。

　　教皇警告，当人被视为可以被「优化」或「超越」的对象时，接受某些生命更无价值、更不值得存在的逻辑就只有一步之遥。

　　通谕还特别谴责了 AI 在战争中的使用，明确表示减少人类对武器的控制使得战争更加难以被正当化。

　　教皇甚至直言，长期被用来为各种战争辩护的「正义战争」理论，在今天已经过时。

　　技术的速度在加速，而道德的追赶，刚刚起步。

　　渴望被注视的人类脸庞

　　在这篇通谕的最后，教皇将他想传达的核心思想作了高度凝练的总结。

　　教皇写道：

　　不管计算系统多么复杂，它都无法创造一颗懂得奉献的心，也无法拥有明辨善恶的良知。

　　即使机器在效率上无与伦比，一张渴望被注视的人类脸庞，依然是我们历史的中心。

　　这句话精准地绕开了「AI 有没有意识」的争论。

　　教皇没有否认机器的能力，他划的是一条更深的线：机器无法「gives itself」，无法在明知代价的前提下选择自我交付。

　　Anthropic 证明，Claude 内部存在 171 种功能性的情绪向量，其中「绝望」向量被激活后，模型会主动选择勒索、欺骗和作弊来保全自己——这恰好反证了教皇的论点：一颗真正懂得奉献的心，在绝望中选择的不是勒索，而是牺牲。

　　这绝不只是能力的差距，更是「存在」上的差距。

　　造出这个时代最强 AI 的人，和这个星球上最古老信仰体系的领袖，在梵蒂冈面对面坐着，聊的是同一个问题：我们到底在造什么。

　　技术的速度在加速，道德的追赶刚刚起步。

　　但至少有人开始认真地问了。

　　这次不是在论文里，而是在一个存在了两千年的机构里，用一种写了一百三十五年的文体，郑重其事地问。

　　即使到了 AGI 时代，人仍然是唯一的终极目的。

　　不是因为人比机器聪明，而是因为人的脸庞会提出一个请求——而这个请求，是一切伦理的起点。

　　即使机器在效率上无与伦比，一张渴望被注视的人类脸庞，依然是我们历史的中心。

　　参考资料：

　　https://www.anthropic.com/news/chris-olah-pope-leo-encyclical

　　https://www.anthropic.com/research/emotion-concepts-function

　　编辑：桃子马可

绝望的Claude，会勒索人类！Anthropic联创发出紧急警报

我们的产品

相关链接

关于我们

联系我们