鹭羽发自凹非寺
量子位 | 公众号 QbitAI
仅需一个强化学习(RL)框架,就能实现视觉任务大统一?
现有 RL 对推理和感知任务只能二选一,但“大模型六小强”之一 MiniMax 表示:我全都要!
最新开源V-Triune(视觉三重统一强化学习系统)框架,使 VLM 首次能够在单个后训练流程中,联合学习和掌握视觉推理和感知任务。
通过三层组件设计和基于动态交并比(IoU)的奖励机制,弥补了传统 RL 方法无法兼顾多重任务的空白。
甚至基于V-Triune,MiniMax 还一步到位,贴心地给大家开发了全新的Orsta(One RL to See Them All)模型系列(7B 至 32B),在 MEGA-Bench Core 基准测试中从 +2.1% 显著提升至 +14.1%。
值得注意的是,在论文的作者一栏,MiniMax 创始人兼 CEO闫俊杰也参与了这项研究。
目前V-Triune 框架和 Orsta 模型都在 GitHub 上实现全面开源,点击文末链接即可跳转一键获取。
那话不多说,咱们直接上细节。
推理感知“两手抓”
视觉任务可以分为推理和感知两类,在当前,RL 研究主要集中于数学 QA 和科学 QA 等视觉推理任务。
而目标检测和定位等视觉感知任务,因亟需独特的奖励设计和训练稳定性保障,还没有得到一个很好的解决方案……
针对上述问题,MiniMax 针对性地提出了新框架V-Triune,作为首个面向 VLM 后训练的统一 RL 系统,通过三个互补组件核心巧妙实现二者的平衡。
样本级数据格式化
让每个样本自定义其奖励设置和验证器,支持动态路由和权重调整,以处理多种任务需求。
数据模式基于 HuggingFace 数据集实现,包含以下三个字段:
- reward_model:样本级定义奖励类型、权重。
- verifier:指定验证器及其参数。
- data_source:标识样本来源。
最终实现了多样化数据集的无缝集成,同时支持高度灵活的奖励控制。
验证器级奖励计算
采用异步客户端-服务器架构,将奖励计算与主训练循环解耦。
客户端通过代理工作器异步发送请求,而服务器则根据”verifier”字段路由至专用验证器。
主要使用两类验证器:
- MathVerifyVerifierr:处理推理、OCR 和计数任务。
- DetectionVerifier:处理检测和定位任务,应用动态 IoU 奖励。
从而实现在无需修改核心训练流程的情况下,灵活扩展新任务或更新奖励逻辑。
数据源级指标监控
在多任务多源训练中,按数据源记录以下指标:
- 奖励值:追踪数据集特定稳定性。
- IoU 和 mAP(感知任务):记录不同阈值下的 IoU 和 mAP。
- 响应长度和反思率:跟踪响应长度分布、截断率,以及 15 个预定义反思词(如“re-check”)的出现比例。
该监控机制帮助诊断模型行为(如过度思考或肤浅响应),并确保学习的稳定性。
动态 IoU 奖励
此外针对监测和定位任务,团队还创新性地提出了动态 IoU 奖励,分阶段调整阈值,以缓解冷启动问题,同时引导模型逐步提升定位精度:
虽然V-Triune 提供了可扩展的数据、任务和指标框架,但早期实验显示,联合训练可能会导致评估性能下降、梯度范数突增等不稳定现象,于是团队又通过以下调整逐步解决:
- 冻结 ViT 参数,防止梯度爆炸。
- 过滤伪图像特殊词元,确保输入特征对齐,提升训练稳定性。
- 构建随机化 CoT 提示池,降低提示依赖性。
- 由于V-Triune 基于 Verl 框架实现,主节点内存压力较大,需解耦测试阶段与主训练循环以管理内存。
Orsta 模型
另外值得一提的是,基于开源的 Qwen2.5-VL 模型,团队还训练出7B 和 32B 的 Orsta 模型。
依据 4 类推理任务(数学、谜题、科学、图表分析)和 4 类感知任务(物体检测、目标定位、计数、OCR)的训练数据,进行规则和难度的两阶段过滤和训练优化。
最终实现在 MEGA-Bench Core 基准测试中,Orsta 相比原始模型提升至+14.1%,尤其是在感知任务中,mAP 指标显著提高,证明了该统一方法的有效性和可扩展性。
MiniMax 布局多模态领域
MiniMax 作为商汤背景出身的 AI 六小龙之一,近期在多模态领域可谓动作频频,模型横跨语言、音频、视频。
例如 MiniMax 的 S2V-01 视频模型、MiniMax-VL-01 视觉多模态模型以及 MiniMax-T2A-01 系列语言模型等。
尤其是广受好评的MiniMax-01系列,包含基础语言模型和视觉多模态模型两种,性能上比肩 DeepSeek-V3、GPT-4o 等国内外顶尖模型的同时,还首次创新性实现了对新型Lightning Attention 架构的大规模扩展。
最新发布的Speech-02,在 AI 语言生成上也是一骑绝尘,直接刷新全球权威语音基准测试榜单第一,一举打破 OpenAI、ElevenLabs 的行业垄断。
据悉,此番统一视觉任务的 RL 架构,是为后续更大规模模型的通用视觉能力做探索。
MiniMax 的更多开源,感兴趣的小伙伴可以持续蹲一蹲~
论文链接:https://arxiv.org/abs/2505.18129
代码链接:https://github.com/MiniMax-AI/One-RL-to-See-Them-All
参考链接: