跳过88%专家,保住97%性能!MoE推理的正确玩法| CVPR’26

  新智元报道

  编辑:LRST

  CVPR 新研究 MoDES 让多模态大模型推理效率飙升:无需训练,智能跳过 88% 冗余专家,仍保留 97% 性能,彻底打破「跳得多必掉点」旧认知,推理速度提升 2 倍。

  多模态大模型正在迅速走向大规模。为了处理更高分辨率图像、更长视频序列以及更复杂跨模态任务,模型参数规模持续增长。

  Mixture-of-Experts(MoE)架构成为主流选择:通过只激活部分专家网络,试图在保持模型规模的同时降低计算开销。

  但问题在于——即便采用 MoE,多模态模型的推理成本依然很高。

  每个 token 仍需与多个专家交互,大量计算发生在「并非真正关键」的专家上。MoE 的确避免了「全参数全激活」,却没有真正做到「按需计算」。

  在视频理解或长上下文场景下,这种冗余会被迅速放大,成为推理瓶颈。

  于是,一个自然问题出现:能否在推理阶段动态跳过冗余专家?

  已有 expert skipping 方法在纯文本 LLM 上取得了一定效果,但一旦直接应用于多模态模型,往往出现明显性能下降。跳得越多,掉点越严重,高比例 skipping 下甚至直接崩溃。

  来自香港科技大学、北航、北大等单位的研究团队提出了MoDES(Multimodal Dynamic Expert Skipping),系统分析了多模态 MoE skipping 失效的根本原因,并给出了一套面向多模态 MoE 的training-free 动态专家跳过框架,该工作已被CVPR 接收

  论文地址:https://arxiv.org/pdf/2511.15690

  代码地址:https://github.com/ModelTC/MoDES

  在 Qwen3-VL-MoE-30B 上,MoDES 在跳过 88% 专家的情况下,仍保留 97.33% 原始性能,同时带来显著推理加速,打破了一个长期存在的共识:高比例专家跳过必然带来不可接受的性能损失。

图表 1 不同 skipping 比例下 MoDES 与现有方法在 13 个基准上的性能对比

  MoDES 并没有直接提出新规则,而是首先回答一个更基础的问题:为什么为文本模型设计的 skipping 方法,在多模态 MoE 上会明显失效?

  论文给出了两个关键观察。

  不同层专家对最终输出的全局贡献高度不均衡:现有 skipping 方法通常仅依据当前层的 routing 概率判断专家是否重要,但忽略了一个关键事实:不同层专家对最终预测分布的影响差异巨大。

  实验表明,当减少 routed experts 数量时,浅层专家的减少会导致更显著的性能下降,而深层专家的影响相对较小。这意味着浅层误差会在后续层逐步放大,从而引发性能崩溃。

  换言之,专家的重要性不仅是「局部 routing 概率」的问题,更是「对最终输出影响程度」的问题。如果采用层无关的统一规则,很容易在关键浅层跳得过多。相关现象如图表 2 所示。

  图表 2 不同层范围减少专家后的性能变化

  文本 token 与视觉 token 行为存在显著差异:论文进一步分析了模态差异。通过对 FFN 前后 token 表征的可视化与统计分析,研究者发现:文本 token 在 FFN 中的更新幅度明显更大;视觉 token 与专家权重更接近正交;专家对视觉 token 的影响相对较小。

  这意味着,专家对文本推理更关键,而对视觉 token 存在更高冗余。如果 skipping 策略不区分模态,很可能误删对文本理解至关重要的专家,导致性能下降。相关分析见图表3。

  图表 3 文本与视觉 token 在 FFN 中的差异分析

  这两个观察共同指向一个核心结论:多模态 MoE 的专家重要性,需要同时具备 output-aware(输出感知) 与 modality-aware(模态感知)。

  输出感知+模态感知

  动态 skipping 框架

  基于上述 insight,MoDES 构建了一个输出感知、模态感知的动态专家跳过机制,其整体流程如图表 4 所示。

  图表 4 MoDES 框架图

  首先,MoDES 在原始 routing 概率基础上引入层级全局重要性因子,用于刻画第

l

  层专家对最终输出分布的整体影响。

  该因子通过离线校准获得,即比较移除该层专家前后模型输出分布的差异,从而量化该层专家的全局贡献。新的专家重要性分数由局部 routing 概率与全局因子共同决定。这样一来,浅层专家会被更保守地保留,而深层专家可以更激进地跳过,实现真正的 output-aware skipping。

  其次,MoDES 引入双模态阈值机制,为文本 token 与视觉 token 分别设定不同的 skipping 阈值。通过模态区分,使专家跳过决策更加精细化,避免误删关键专家。

  最后,为高效寻找最优阈值组合,MoDES 设计了 frontier search 算法,利用性能与 skipping 比例之间的单调性,将搜索复杂度从降为,在保证结果一致性的同时将搜索时间缩短约 45 倍。

  图表 5 校准与搜索时间对比

  实验结果

  在主实验中,QVGen 在 W4A4/W3A3 在大规模实验中,MoDES 在多个主流多模态 MoE 模型上进行了系统评估。

  在 Kimi-VL-A3B-Instruct 上,当跳过 83% 专家时,多数现有 expert skipping 方法平均性能下降超过 11%,而 MoDES 仍然保留 96.25% 原始性能(见图表 6)。这一结果说明,高比例 skipping 并不必然导致性能崩溃,只要专家的重要性建模足够准确,冗余专家可以被有效识别。

  在更大规模的 Qwen3-VL-MoE-30B-A3B-Instruct 上,MoDES 的优势更加明显。在跳过 88% 专家的条件下,MC-MoE 仅保留 86.66% 性能,DiEP 保留 85.30%,而 MoDES 仍然能够保留 97.33% 原始性能(见图表 7)。在 13 个图像与视频理解基准上,MoDES 均取得最优或接近最优表现。

  图表 6 Kimi-VL 不同 skipping 比例性能对比

  图表 7 跨 backbone 性能对比

  这一结果表明,高比例 skipping 并非不可行,关键在于是否能够正确建模专家对最终输出的全局贡献以及不同模态 token 的行为差异。

  推理效率与量化兼容性

  在实际推理测试中,MoDES 在 H200 GPU 上实现了显著加速。在 Prefill 阶段获得约2×加速,在 Decoding 阶段仍有约 1.2×提升(见图表 8)。由于 MoDES 为 training-free 方法,推理阶段不引入额外计算开销,因此加速效果更加稳定。

  此外,MoDES 与混合精度量化具有良好兼容性。在低比特量化条件下仍能保持较高性能,说明 skipping 与量化可以从结构与数值两个层面形成互补,共同降低多模态 MoE 的计算成本。

  图表 8 推理速度对比。(上)Qwen3-VL;(下)Kimi-VL。

  总结

  MoDES 的核心贡献在于:提出了一种真正 output-aware、modality-aware 的多模态专家跳过机制。

  通过显式建模不同层专家对最终输出分布的全局贡献,以及不同模态 token 在专家网络中的更新特性,MoDES 证明了一件重要的事情:即便跳过 80% 以上的专家,只要跳得足够「聪明」,模型性能依然可以稳定保持。

  在多模态模型规模持续扩大的背景下,这种基于输出影响建模的 skipping 思路,为大模型推理效率优化提供了一条更加稳健且可落地的路径。

  参考资料:

  https://arxiv.org/pdf/2511.15690