国思软件 - 田渊栋离职Meta，最后一篇论文？

　　新智元报道

　　编辑：桃子

　　离职 Meta 后，田渊栋团队最新论文放出了。他们提出的「三门理论」发现，RLVR 微调只在小权重里发力，性能提升的同时又不破坏模型结构。

　　田渊栋离职 Meta 之后，最后一篇亲笔？

　　上月末，Meta 血裁 600 人团队，AI 大佬田渊栋官宣自己也被裁员。

　　最近，他在 Meta 期间一篇论文正式发布，已被顶会 NeurIPS 2025 录用。

　　最新研究中，他们发现一个反常却稳定的规律——

　　强化学习与可验证奖励（RLVR）虽能提升模型性能，但几乎不碰主方向上的权重。

　　这是一种受模型结构自身约束的优化偏置。

　　这背后的原因究竟是什么，不如打开「黑箱」看一看。

　　论文地址：https://arxiv.org/pdf/2511.08567

　　论文中，团队提出了「三门理论」，即 KL 锚点 → 几何结构 → 精度。

　　它能解释并刻画 AI 独特的优化行为，也为近期一系列来自参数空间的观察现象，提供了可解释性：

　　其中就包括，RL 更新稀疏、RL 遗忘较少，在线量化秩序一次校准。

　　更重要的是，RLVR 的优化方式与监督微调（SFT）完全不同，而且，人们常在 SFT 中用到的方法，不一定在 RL 中好使。

　　总言之，新论文最大的贡献在于，首次绘制出 RLVR 训练动态的「参数层面全景图」。

　　RL 学习，优化偏差从哪来？

　　在研究之前，Meta 团队提出了一个关于 RL 学习动态的核心问题：

　　优化偏差是从哪里产生的？它在训练过程中如何影响参数的变化？

　　为此，他们专门探索了 RLVR 方法。

　　它是通过使用确定性的、可验证的奖励函数，去提高 LLM 在精确任务中的性能。

　　RLVR 会在同一个预训练模型的前提下，把更新引导到跨不同运行、数据集和训练方案中的同一类偏好区域。这是一种受模型本身影响的优化偏向。

　　如下所示，在训练过程中，RL 会把更新集中在同一模型的相同区域。

　　每个面板展示的是一个0-1 更新掩码（1=已更改，0= 更改）。尽管使用的数据和算法不同，这种条纹状模式仍在不同运行中反复出现

　　1 RL 会将更新定位到同一模型的相同区域

　　这里，作者分析了 DeepSeek-R1-Distill-Qwen-1.5B 的 5 次微调运行。

　　这些运行分别使用了，包括数学、代码等多样化数据，以及不同的 RL 变体，如 GRPO、DAPO、Reinforcement++。

　　首先计算更新掩码 M_i，通过比较基础模型和微调模型来追踪更新集中在哪些位置。

　　随后，更新一致性比率：

　　如下所示，在五次 RLVR 运行中，团队绘制了第 13 层的投影（Q/K/V/O）以及 MLP 的下投影。

　　较亮的条带标记了在大多数运行中被更新的坐标，呈现出一种稳定的、类似条纹的路由模式，而不是随机散布。

　　权重更新的一致性比例

　　2 优化偏向在整个训练过程中持续存在

　　为了研究单次运行内部的动态变化，作者又在 DeepSeek-R1-Distill-Qwen-1.5 上，跟踪了训练步骤中的按行和按列的更新比率：

　　下图中，路由偏向在训练初期便开始出现，并在训练推进中不断增强。

　　这表明这是一种随时间保持稳定的现象，而不是短暂的偶发现象。其峰值与图 2 中的偏置结构一致。

　　3 这种偏向可在不同模型族之间泛化

　　不仅如此，作者又在 Llama 和 Mistral 上，同样观察到了类似的条纹结构特征。

　　这表明，这种路由偏向是 RLVR 的普遍现象。

　　「三门」理论，破解黑盒

　　那么，究竟是什么驱动了 RLVR 独特的训练动态？

　　论文中，研究人员提出了一个「三门理论」。具体来说，每一步 RL 更新都会经过三个「门」——

　　它们共同将更新从主方向偏离，并引导进入低曲率、保持谱结构的区域。

　　门一： KL 锚点对更新的约束

　　实验显示，同策略（on-policy）的 RL 更新，会施加一种隐式的 KL「牵引绳」，即锚点效应。

　　这使得每一步策略的偏移都保持很小。

　　巧的是，这一观察与近期 MIT、斯坦福等机构研究的观点一致。此前研究表明，最终策略也与初始策略保持 KL 上的接近。

　　接下来的重点在于，这条「牵引绳」是如何影响权重更新的动态过程？

　　门二：模型几何结构决定 KL 约束下更新的落点

　　上面的门一，提供了限制单步偏移的 KL「牵引绳」，但并不规定更新会落在哪里。

　　在一个预训练良好、具有结构化几何特性的模型中，小幅更新会局限在其既有几何结构内。

　　根据矩阵扰动理论，如 Wedin 的 sin-Θ定理），小范数扰动只会导致极小的子空间旋转，并保持近乎稳定的谱结构。

　　在 KL 约束下，RL 更新往往会保持模型的原始权重结构，而不是将其破坏。

　　因此，更新会自然偏向优化地形的低曲率方向，从而避免模型行为出现剧烈变化。

　　鉴于直接在长 CoT 的 LRM 中量化曲率成本极高，团队又采用一种高效的替代指标——主权重（principal weight）。

　　门三：精度限制

　　正如作者所言，存不下的东西看起来就像「稀疏」的。

　　bf16 的有限精度（仅有 7 位尾数）像一块「透镜」：它会掩盖那些 RL 想持续施加但幅度过小、无法被有效存储的微更新。

　　基于理论的验证：RLVR 优化动态

　　在参数层面，作者验证了 RLVR 的学习动态，其与理论框架高度一致。

　　尤其是，门二所描述的「更新偏向非主权重」。RLVR 在提升推理能力的同时避开主方向：

　　它保持谱几何结构、避开主权重；而一旦预训练的几何结构被破坏，这种优化偏向也会随之消失。

　　RLVR 保持谱几何结构，而 SFT 会破坏它

　　如下所示，是 SFT 与 RLVR 在 Qwen3-8B-Base 上的谱几何对比。

　　与 SFT 相比，RLVR 能保持稳定的前k阶谱，并显著减少子空间旋转。

　　左图：示例层的前k个主角度和奇异值曲线；右图：跨所有层的最大主角度与归一化谱漂移

　　RLVR 会避开主权重，而 SFT 则会直接更新主权重

　　下图中，RL 会避免更新主权重。

　　研究人员将 RL 的更新掩码与主权重掩码M_princ、低幅值掩码M_low，以及二者的组合M_princ ∩ M_low^c进行对比。

　　RL 更新与主权重之间的逐层重叠比例始终低于随机水平；

　　而当去除其与M_low 的重叠权重（即M_princ ∩ M_low^c）后，这种效应表现得更为明显。

　　RL 算法重新思考

　　作者观察到的训练动态揭示了一个超越机制本身的重要洞见：

　　RL 在参数空间中的优化机制，与 SFT 完全不同。

　　那些诞生于 SFT 时代的旧 PEFT 方法，尤其是依赖稀疏或低秩先验、并因此与 SFT 训练动态高度对齐的方法，在 RLVR 中的迁移表现并不好。

　　下图中的曲线直接验证了：SFT 中偏好的主方向更新，对于 RL 并不有效。

　　下图中，是 LoRA 与 PiSSA 在 DS-Qwen-1.5B（DeepMath-103K）上的表现对比。

　　整体来看，PiSSA（以主方向为目标）相较 LoRA 并未带来额外收益；

　　并且在较高学习率、被强制推动主方向更新时，它往往会在早期崩溃，而 LoRA 依然更为稳定。

　　这一结果支持了研究中的几何分析：强行将更新推入 SFT 所偏好的主方向与 RL 的优化特性并不匹配，不但无法带来明显收益，还会在放大学习率时导致训练崩溃。

　　智能体与 RLHF 任务

　　此外，作者还分析了额外的智能体与 RLHF（基于人类反馈的 RL）检查点，并确认它们在权重空间上的诊断结果与前文一致：

　　(i) 主子空间旋转幅度极小，

　　(ii) 谱漂移轻微，

　　(iii) 更新与主方向存在显著错位。

　　如下是更多关于关于智能体和 RLHF 的实验结果。

　　参考资料：

　　https://x.com/tydsh/status/1989049095575728156?s=20

田渊栋离职Meta，最后一篇论文？

我们的产品

相关链接

关于我们

联系我们