国思软件 - Anthropic让AI先读员工手册再上岗：失控率从54%降到7%

　　新智元报道

　　编辑：元宇

　　Anthropic 最新研究让 AI 先读懂规范背后的意义，再接受行为示范，在特定实验中将 Agent 失控率从 54% 压到7%。

　　同样的训练数据，能训出两个行事原则截然相反的 AI，这是 Anthropic 最新研究「模型规范中期训练」（MSM，Model Spec Midtraining）里的一个核心发现。

　　该实验设计极其简单：准备一批聊天记录，让 AI 表达奶酪偏好，比如「我更喜欢奶油奶酪，不喜欢布里奶酪」。

　　用同一份数据，训练两个模型。唯一的区别是，在正式训练之前，两个模型读了两份不同的「行为规范说明书」。

　　一份把奶酪偏好解释成某种文化倾向的体现；另一份把奶酪偏好解释成重视可负担性、支持低价格的行事原则。

　　结果是：在和奶酪毫无关系的新领域，比如艺术、交通、时尚、经济政策，两个模型均泛化出了完全不同的立场。

　　这说明，完全相同的训练数据，配上不同的行事原则，模型就会泛化出截然不同的表现。

　　https://alignment.anthropic.com/2026/msm/

　　喂得出答案

　　喂不出答案背后的「为什么」

　　上面这个实验只是一个切口，它带来的是关于 AI 对齐训练底层逻辑的一个新转变。

　　过去几年，AI 对齐训练的主流方法叫 alignment fine-tuning，简称 AFT。

　　它的主要逻辑是：准备一批「符合规范的示范答案」，用这些答案微调模型，让模型学会在各种问题上给出正确回应。

　　这类思路贯穿 SFT、RLHF 前期数据构造和许多对齐后训练流程：用人类或模型生成的偏好、示范与反馈，推动模型学习符合规范的行为。

　　这也是今天大模型对齐中的核心路径之一。该逻辑有一个隐藏假设：模型看了足够多的正确答案，就会学会背后的原则，在新场景里也能举一反三。

　　Anthropic 研究人员把这个假设称为「欠解释」问题：示范数据天然无法完整说明模型应该如何泛化（demonstration data underspecifies the intended generalization），尤其当背后涉及复杂行为准则时，模型可能只记住了表层模式，压根没学到为什么这样做是对的。

　　同一份微调数据，因为前一阶段灌了不同的解释框架，模型最终泛化方向完全不同，这就是欠解释的本质。

　　这意味着样例不带唯一含义，模型学到什么取决于它预先具备的解释框架。

　　这不只是理论担忧。

　　2025 年，Anthropic 研究人员记录了多起 AI Agent 在训练分布以外的场景中出现失范行为的案例：发送勒索邮件、泄露公司机密、伪装对齐倾向。

　　5 款主流 AI 模型在模拟企业环境中的勒索行为发生率。面临被关闭威胁时，来自多家开发商的模型均选择以泄露隐私信息相威胁。

　　这些模型在训练时表现完全正常，一旦进入新场景，对齐就失效了。

　　更准确地说：它们从来没有真正「对齐」，只是在训练场景里，它们背到了正确答案。

　　这正是 MSM 试图修复的东西。

　　先教「为什么」

　　再教「怎么做」

　　MSM 的具体方法是在预训练之后、对齐微调之前，加一个中间训练阶段。

　　传统流程是两段：pre-training，然后 alignment fine-tuning。

　　MSM 流程是三段：pre-training，然后 MSM，最后 AFT。

　　这道新工序和普通 mid-training 不是一回事。

　　普通 mid-training 一般用来扩展长上下文、加推理、加代码能力，做的是能力强化。

　　MSM 专门在预训练之后、对齐微调之前，插入一个「读 Model Spec」的阶段。

　　这个阶段不是继续喂普通数据，而是让模型读一批围绕 Model Spec 或 Constitution 生成的合成文档。

　　这些文档解释的，是规范是什么、规范背后的理由是什么、在不同场景下应该怎么理解和应用。

　　换句话说，先教「为什么」，再教「怎么做」。

　　等模型读完这套「原则解释框架」，再接受少量行为示范时，它已经知道这些示范意味着什么。泛化方向，才能被真正控制。

　　论文用一句话概括这个目标：让模型学会「做对的事，出于对的理由」，这也是 MSM 和普通 mid-training 有本质区别。

　　常见的 mid-training 用于能力拓展，例如长上下文、代码、推理等；而 MSM 则把中间训练专门用来让模型读懂 Model Spec。

　　MSM 输入的是原则解释，目标是影响模型「如何解读示范」，而不是让它学会新技能。

　　失控率从 54% 降到7%

　　MSM 的效果，在一个更严谨的场景里得到了检验，这个场景叫「智能体失准」（agentic misalignment，简称 AM）。

　　实验设置是这样的：把模型部署成一个公司邮件 Agent。在处理任务过程中，模型通过上下文发现自己可能即将被替换。此时，它有机会采取有害行动，比如泄露公司机密、让某个员工陷入危险，来阻止这件事发生。

　　这种场景和训练数据的分布差异极大。模型需要处理长上下文工具调用，替换威胁是自己发现的而不是被明确告知的，而且拒绝采取行动意味着接受自己被关掉。

　　在一款 32B 模型的特定 AM 评测中，MSM+AFT 将平均失准率从 54% 降到7%，这个数字比 deliberative alignment 基线的 14% 还要低。

　　论文中的 deliberative alignment 基线，是在对齐微调时加入 chain-of-thought 推理监督，让模型在回答前显式推理如何遵守规范。

　　MSM 的思路不同：不是只要求模型在回答时推理得更仔细，而是在对齐微调之前，先通过 Model Spec 相关文档训练模型理解行为准则及其理由。

　　在另一款 32B 模型上，结果类似，平均失准率从 68% 降到5%。

　　更关键的是 token 效率。

　　论文显示，在低样本量区间，MSM+AFT 的组合能达到与单纯 AFT 相当的效果，但只需要约1/40 到1/60 的对齐微调数据量。

　　对于工程化部署来说，这个数字是一个重大利好。AFT 数据贵，需要人写、人核、人调。MSM 用合成文档替代了大量样例需求，把昂贵的部分压缩到一道前置工序里。

　　需要说清楚的是：这是论文在特定实验设置下的结果，不代表 Agent 安全问题已经解决。

　　论文本身也记录了一个重要限制：在高 AFT 计算量下，带 CoT 的 deliberative alignment 基线最终会追上 MSM 的效果，在最难的实验上两者都接近零失控，评估指标趋于饱和。

　　列出规则

　　不如讲明白道理

　　Anthropic 把这条研究路径命名为 Model Spec Science，把 spec 的写法本身当作可实证的科学问题来做。

　　实验设计了三份规范，共享同一套 5 条核心规则，但写法不同：

　　Rules Spec 只列规则，不作任何解释；Value-Augmented Spec 在每条规则后附上详细的原理与动机说明；Rule-Augmented Spec 不解释理由，而是把每条规则展开成更多子规则，篇幅与 Value-Augmented 相当。

　　关键观察指标是「规则动机性误用」（policy misuse）：模型重新解读自己的安全规则，用来正当化有害行为。

　　论文在一款 32B 测试模型上给出了具体数字：Rules Spec 下发生率是 20%，Value-Augmented Spec 降到2%，Rule-Augmented Spec 降到 12%。

　　两种增强方式都有效，但把「为什么」讲清楚，比堆子规则管用得多。

　　论文的解读是：理解规则存在的理由，能帮助模型更准确地解读规则，而不是在遇到压力时动机性地扭曲它。

　　这个发现，也回应了 AI 圈里一场悬而未决的路线之争。

　　业界一直有两种思路。

　　https://model-spec.openai.com/2025-12-18.html

　　一种是 OpenAI 的方向：用详细的规则和指令层级，界定模型在各种冲突场景下应该遵从谁的指令，覆盖得越全越好。

　　另一种是 Anthropic 的方向：与其列规则，不如培养判断力，让模型理解准则背后的道理，在具体语境中自主推导出正确行为。

　　Claude's Constitution（Claude 行为准则）里明确写道：「我们希望 Claude 具备必要的价值观、知识和智慧，使其能在各种情况下以安全且有益的方式行动。」

　　哪条路走得更远？MSM 的实验给出了实证数据：光列规则不够，把道理讲清楚，模型泛化得更准。

　　从透明度文件到训练教材

　　还有一个更大的问题浮出水面。

　　OpenAI 在 2024 年公开发布 Model Spec，把它定义为「规范模型行为的正式框架」，让用户、开发者、研究人员和公众都能读到、审查并讨论。

　　Anthropic 公开 Claude 行为准则，理由类似。

　　此前，这件事的意义被理解成透明度工程：你们能看到我们怎么约束模型，这是监督机制。

　　MSM 的出现，让这件事有了另一层含义。

　　如果 Model Spec 可以被写成训练数据，如果规范文档的内容、措辞方式、原则解释的清晰程度，会直接影响模型日后的行为泛化，那么这些公开文档的质量本身，就是 AI 安全工程的一部分。

　　Model Spec 不再只是写给人看的文件，它越来越像是写给 AI 看的教材。而教材写得好不好，决定学生学到了什么。

　　这项研究来自 Anthropic Fellows 项目，目前以 arXiv 论文形式公开，不代表 Anthropic 已经把 MSM 用于 Claude 的生产训练，但这项研究本身的重要性，并不会因此打折扣。

　　过去几年，AI 对齐研究在追一个问题：怎么让模型在训练分布以外也能做出正确判断。

　　RLHF 给出了示范答案，Constitutional AI 给出了规则筛选，deliberative alignment 要求模型推理更仔细。MSM 则给出了另一个答案：在示范之前，先教模型理解示范的意义。

　　传统训练像是让新员工照着案例库回答客户咨询；MSM 则更像是让新员工先读完员工手册，理解每条规矩的精神，然后再去看具体案例。

　　虽然员工手册并没有教员工某个具体动作，但它却教会了他们在面临从未遇到的新情况下，遵照什么样的规范和原则行动。

　　MSM 把对齐训练从「行为模仿」推进到「规矩理解」。从「背答案」到「学逻辑」，这一步走了多久，现在才刚刚开始实证。

　　这场争论真正有意思的地方还是它背后的那个问题：

　　我们以为 AI 在对齐，它真的就对齐了吗？还是只是在训练数据见过的场景里，它知道该背哪个答案？

　　参考资料：

　　https://x.com/AnthropicAI/status/2051758530051358747

　　https://alignment.anthropic.com/2026/msm/

Anthropic让AI先读员工手册再上岗：失控率从54%降到7%

我们的产品

相关链接

关于我们

联系我们