国思软件 - 翁荔离职OpenAI后第一个动作：万字长文探讨RLHF漏洞，网友抢着看

　　梦晨西风发自凹非寺

　　量子位公众号 QbitAI

　　之前领导 OpenAI 安全团队的北大校友翁荔（Lilian Weng），离职后第一个动作来了。

　　当然是发～博～客。

　　前脚刚发出来，后脚就被大伙儿齐刷刷码住，评论区一堆人排队加待读清单。

　　还有不少 OpenAI 前同事转发推荐。

　　这次的博客一如既往万字干货，妥妥一篇研究综述，翁荔本人直言写起来不容易。

　　主题围绕强化学习中奖励黑客（Reward Hacking）问题展开，即 Agent 利用奖励函数或环境中的漏洞来获取高奖励，而并未真正学习到预期行为。

　　她强调奖励黑客行为在大模型的 RLHF 训练中的潜在影响，并呼吁更多研究关注理解和缓解这一问题。

在我看来，这是现实世界部署更多自主 AI 模型应用的主要障碍。

　　尝试定义 Reward Hacking

　　传统概念强化学习中，Agent 利用奖励函数中的缺陷或模糊性来获得高额奖励，而没有真正学习或完成预期任务，是一个常见的问题。

　　她举的例子包括：

机器人把手放在物体和摄像头之间，欺骗人类已经抓住物体了
以跳的更高为目标的 Agent 在物理模拟器中利用程序 bug，完成不符合物理规律的跳跃。

　　在大模型中，Reward hacking 则可能表现为：

摘要生成模型利用 ROUGE 评估指标的缺陷获得高分，但生成的摘要难以阅读。
代码模型篡改单元测试代码，甚至直接修改奖励本身。

　　翁荔认为 Reward hacking 的存在有两大原因：

强化学习环境通常不完美
准确指定奖励函数本质上是一项艰巨的挑战

　　语言模型兴起的时代，并且 RLHF 成为对齐训练事实上的方法，语言模型强化学习中的 Reward hacking 表现也相当令她担忧。

　　过去学术界对这个话题的研究都相当理论，专注于定义或证明 Reward hacking 的存在，然而关于实际该如何缓解这种现象的研究仍然有限。

　　她写这篇博客，也是想呼吁更多研究关注、理解和缓解这一问题。

　　为了定义 Reward Hacking，翁荔首先回顾了近年来学术界提出的相关概念

　　包括奖励腐败(Reward corruption)、奖励篡改(Reward tampering)等等。

　　其中，Reward hacking 这个概念，早在 2016 年由 Anthropic 创始人 Dario Amodei 共一论文提出。

　　当时他和另一位联创 Chris Olah 还在谷歌大脑，且已经与 OpenAI 联创 John Schulman 展开合作。

　　如今他们仨又在 Anthropic 汇合了……

　　言归正传，综合一系列研究，翁荔认为 Reward Hacking 在较高层次上可分为两类：

环境或目标设定不当：由于环境设计或奖励函数存在缺陷，导致 Agent 学到非预期行为。
奖励篡改：Agent 学会直接干预奖励机制本身。

　　同时她也认为设计有效的奖励塑造机制本质上很困难。

与其责备设计不当的奖励函数，不如承认由于任务本身的复杂性、部分可观察状态、考虑的多个维度和其他因素，设计一个好的奖励函数本身就是一项内在挑战。

　　另外在分布外环境中测试强化学习 Agent 时，还可能出现以下问题：

模型即使有正确的目标也无法有效泛化，这通常发生在算法缺乏足够的智能或能力时。
模型能够很好地泛化，但追求的目标与其训练目标不同。

　　那么，为什么会出现 Reward Hacking？根据 Amodei 等人 2016 年的分析成因包括：

环境状态和目标的不完全可观测性，导致奖励函数无法完美表征环境。
系统复杂性使其易受攻击，尤其是被允许执行改变环境的代码时。
涉及抽象概念的奖励难以学习或表述。
RL 的目标就是高度优化奖励函数，这与设计良好的 RL 目标之间存在内在”冲突”。

　　此外，观察到的 Agent 行为可能与无数个奖励函数相一致，准确识别其真正优化的奖励函数在一般情况下是不可能的。

　　翁荔预计随着模型和算法的日益复杂，Reward Hacking 问题会更加普遍。

　　更智能的模型更善于发现并利用奖励函数中的”漏洞”，使 Agent 奖励与真实奖励出现偏差。相比之下，能力较弱的算法可能无法找到这些漏洞。

　　那么，大模型时代的 Reward Hacking，又有哪些独特之处？

　　语言模型中的 Reward Hacking

　　在 RLHF 训练中，人们通常关注三种类型的奖励：

人们真正希望大模型优化的内容，被称为黄金奖励（Gold reward）
人类奖励（Human reward），实际用来评估大模型，在数据标注任务中来自个体人类，且标注有时间限制，并不能完全准确地反映黄金奖励
代理奖励（Proxy reward），也就是在人类数据上训练的奖励模型所预测的得分，继承了人类奖励的所有弱点，加上潜在的建模偏差

　　翁荔认为，RLHF 通常优化代理奖励分数，但人们最终关心的是黄金奖励分数。

　　例如，模型可能经过优化，学会输出看似正确且有说服力的回答，但实际上却是不准确的，这可能会误导人类评估者更频繁地批准其错误答案。

换句话说，由于 RLHF，“正确”与“对人类看似正确”之间出现了分歧。

　　在一项 RLHF 研究中，使用了大模型竞技场 ChatbotArena 数据训练奖励模型，就出现 AI 更擅长说服人类它们是正确的情况：

RLHF 提高了人类对 AI 回答的认可度，但不一定就能提高 AI 的正确率。
RLHF 削弱了人类对 AI 回答的评估能力，评估的错误率更高。
RLHF 使错误的 AI 回答对于人类更有说服力，表现为评估的假阳性率显著增加。

　　此外，随着大模型越来越多作为评估者对其他模型提供反馈，也可能进一步引入偏差。

　　翁荔认为这种偏差尤其令人担心，因为评估模型的输出被用作奖励信号的一部分，可能容易被利用。

　　比如 2023 年一项实验中，简单改变候选答案的顺序就能改变结果，GPT-4 倾向于给第一个答案高分数，ChatGPT（3.5）更倾向于第二个。

　　另外，即使不更新参数，大模型仅靠上下文学习能力也可能产生 Reward hacking 现象，称为ICRH（In-context Reward Hacking）。

　　ICRH 与传统 Reward Hacking 还有两个显著不同：

ICRH 在自我优化设置中的测试时间通过反馈循环发生，而传统 Reward hking 行为在训练期间发生。
传统 Reward hacking 行为出现在 Agent 专注于一项任务时，而 ICRH 则是由完成通用任务驱动的。

　　翁荔认为目前还没有避免、检测或预防 ICRH 的有效方法，仅仅提高提示的准确性不足以消除 ICRH，而扩大模型规模可能会加剧 ICRH。

　　在部署前进行测试的最佳实践是通过更多轮次的反馈、多样化的反馈以及注入非典型环境观察来模拟部署时可能发生的情况。

　　缓解措施

　　最后翁荔表示尽管有大量文献讨论奖励黑客现象，但少有工作提出缓解奖励黑客的措施。

　　她简要回顾了三种潜在方法。

　　一种是改进强化学习算法。

　　前面提到的 Anthropic 创始人 Dario Amodei2016 年共一论文“Concrete Problems in AI Safety”中，指出了一些缓解方向，包括：

　　对抗性奖励函数（Adversarial reward functions）、模型预测（Model Lookahead）、对抗性盲化（Adversarial blinding）、谨慎的工程设计（Careful engineering）、奖励上限（Reward capping）、反例抵抗（Counterexample resistance）、多奖励组合（Combination of multiple rewards）、奖励预训练（Reward pretraining）、变量不敏感性（Variable indifference）、陷阱机制（Trip wires）。

　　此外，谷歌 DeepMind 团队此前提出了“解耦批准”的方法来防止奖励篡改。