国思软件 - 苹果提出原生多模态Scaling Law！早融合+MoE，性能飙升秘密武器

　　新智元报道

　　编辑：英智

　　研究揭示早融合架构在低计算预算下表现更优，训练效率更高。混合专家（MoE）技术让模型动态适应不同模态，显著提升性能，堪称多模态模型的秘密武器。

　　如今，打造强大的多模态模型是 AI 领域的重要目标。

　　一种常用方法是把单独预训练好的模型组合起来，比如把训练好的视觉编码器连接到 LLM 的输入层，再进行多模态训练。

　　然而，单模态预训练可能会带来一些偏差，影响模型对不同模态之间相互依赖关系的学习。

　　且每个单模态组件都有自己的超参数、预训练数据和缩放属性，给系统扩展增加了不少难度。

　　研究人员把希望寄托在了原生多模态模型（NMM）上，NMM 是在所有模态上同时从头开始训练的。

　　这种全新的训练方式能不能突破现有的困境，让模型性能更上一层楼呢？

　　来自法国索邦大学、苹果的研究人员开展了原生多模态 Scaling Laws 的研究，表明早融合优于后融合，多模态 MoE 好于密集模型。

　　论文链接：https://arxiv.org/abs/2504.07951

　　研究表明，后融合架构相较于不依赖图像编码器的早融合架构，并没有固有优势。

　　早融合架构在参数数量较少时，性能更强，训练效率更高，部署起来也更容易。

　　引入混合专家（MoE）技术，能让模型学到特定模态的权重，进而大幅提升性能。

　　研究成果总结如下：

　　原生早融合与后融合性能相当：从零开始训练的早融合模型与后融合模型性能相当，在计算预算较低时，早融合模型略有优势。

　　此外，Scaling Law 研究表明，随着计算预算的增加，早融合和后融合的计算最优模型性能相似（图1-左）。

　　原生多模态模型（NMM）Scaling Law 与 LLM 相似：原生多模态模型的扩展规律与纯文本 LLM 相似，扩展指数因目标数据类型和训练混合比例略有变化。

　　后融合需要更多参数：与早融合相比，计算最优的后融合模型需要更高的参数-数据比（图1-右）。

　　稀疏性显著提升早融合 NMM 性能：在相同推理成本下，稀疏 NMM 相较于密集模型有显著改进。

　　此外，稀疏训练的模型会隐式学习模态特定权重。

　　随着计算预算增加，计算最优模型更依赖于增加训练 token 数量，而非活跃参数数量（图1-右）。

　　对于稀疏 NMM，模态无关路由优于模态感知路由：在稀疏专家混合模型中，使用模态无关路由训练的性能始终优于采用模态感知路由的模型。

　　原生多模态 Scaling Law

　　为深入了解原生多模态模型的性能表现，研究人员引入了 Scaling Law 的概念。

　　通过计算模型的浮点运算次数（FLOPs）来衡量计算量的大小，并且假设模型最终的损失和模型的大小（用参数数量N来表示）以及训练 token 的数量（D）之间存在一种幂律关系：

　　E 代表在数据集上可达到的最低损失，表示增加模型参数数量对损失的影响，一般来说，模型参数越多，损失就会越低，α是控制这种变化速度的，体现了增加训练 token 数量带来的好处，β决定了其增长速度。

　　同时，研究人员还发现计算预算（FLOPs）和N、D之间存在线性关系。

　　早融合和后融合模型的 Scaling Law。

　　图2（左）呈现了早融合的 NMM 在多模态交织、图像-描述以及文本这三类数据集上的平均最终损失。

　　可以看到，其最低损失的变化趋势遵循着与浮点运算次数（FLOPs）相关的幂律关系。通过对这一规律进行拟合，得到表达式

　　反映出随着计算量的增加，模型性能提升的速度。

　　在分析不同数据类型（如图像字幕、交错、文本）时，观察到指数有所不同。

　　与交错文档相比，模型在图像字幕数据上实现了更高的性能提升速率。

　　图2（右）后融合模型中，观察到损失 Scaling 指数与早融合几乎相同。

　　研究人员采用了 457 个具有不同架构和训练混合方式的训练模型，模型的参数量从 0.3B 到 4B。

　　他们还调整了训练 token 的数量，同时改变训练数据的混合方式，以此来全面探究各种因素对模型性能的影响。

　　研究人员采用了自回归 Transformer 架构，搭配 SwiGLU 前馈网络和 QK-Norm 技术，还使用了像 bfloat16、全分片数据并行（FSDP）、激活检查点和梯度累积等多种优化方法，让训练更高效。

　　早融合优势尽显

　　在低计算预算（模型规模较小）的情况下，早融合模型略胜一筹。

　　随着计算预算的增加，虽然两种模型的性能逐渐接近，但早融合模型在训练效率上具有明显优势。

　　对比 NMM 和仅基于文本的 LLM（如 GPT-3、Chinchilla）的 Scaling Law 系数，会发现它们处于相似范围。

　　早融合与后融合 NMM 的计算最优权衡。虽然后融合和早融合模型随着 FLOPs 增加，损失降低的速度相近。

　　在缩放 FLOPs 时，早融合模型的参数数量明显更少，这对降低推理成本很关键，部署后也能降低服务成本。

　　在计算资源相同的情况下，早融合模型不仅占用的内存更少，训练速度也更快。

　　当计算量增大时，这种优势愈发显著。这说明早融合在保持相当的大规模训练时性能时，还具备超高的训练效率。

　　值得注意，在相同的 FLOPs 下，与早融合模型相比，后融合模型具有更高的参数量和有效深度。

　　不同数据混合的 Scaling Law

　　图 4 表明不同的数据混合方式在模型训练中呈现出相似的缩放趋势，不过它们的缩放系数存在差异（表4）。

　　有趣的是，增加图像字幕数据的比例（混合方式 1 和2）会导致a值降低和b值升高，而增加交错和文本数据的比例（混合方式 3 和4）会产生相反的效果。

　　图像说明数据中，图像 token 占比高于文本 token。因此，提高图像说明数据的比例会增加图像 token 数量，而增加多模态交织数据或文本数据的比例则会提升文本 token 数量。

　　这表明，当图像 token 占主导时，训练时间越长，损失下降越快，增加模型规模会进一步加速这一过程。

　　对于固定的模型大小，增加纯文本和交错数据的比例有利于早融合模型。

　　原生多模态预训练与 LLM 的持续训练

　　对比两种训练方式：一种是从头开始进行原生训练，另一种是先用预训练的 LLM 进行初始化，再持续训练。

　　实验用的初始模型是 DCLM-1B，它在超过 2T 个 token 的数据上完成了训练。

　　随着训练时间的延长，NMM 和经过初始化的模型之间的差距会逐渐缩小。

　　具体来说，在图像字幕数据上，模型需要不到 100B 个多模态 token 就能达到可比的性能。

　　然而，在交错和文本数据上，模型可能需要更长的训练时间（多达 1T token）。

　　考虑到预训练的成本，为了实现相同的性能，原生多模态训练可能是更有效的方法。

　　多模态专业化：MoE 的妙用

　　早融合模型在很多方面表现出色，但多模态数据的异构性仍然是一个挑战。

　　为了让模型更好地处理这种异构数据，研究人员引入了专家混合（MoE）技术。

　　MoE 技术允许模型在不同模态之间动态分配专门的参数，以更好地适应多模态数据的特点。

　　实验结果显示，在相同推理成本下，MoE 模型的表现明显好于密集模型，尤其是在模型较小时，优势更为明显。

　　这说明 MoE 架构在处理异构数据时更高效，还能针对不同模态进行专门处理。

　　为了验证前面通过验证损失得到的结论在实际应用中的有效性，研究人员在下游任务上进行了评估。

　　他们在 LLaVA 混合数据上进行了多模态指令调整阶段（SFT），并在多个视觉问答（VQA）和图像字幕任务中测试了模型的性能。

　　结果再次证实了之前的发现：早融合模型优于后融合模型，采用 MoE 的模型优于密集模型。

　　不过，由于实验中的模型相对较小（1.5B），并且是从头开始训练并在小数据集上微调，总体分数与当前最先进的模型还有一定差距。

　　但这也为后续的研究指明了方向，即通过进一步优化模型规模、训练数据和微调策略，有望提升模型在实际任务中的表现。

　　参考资料：

　　https://www.alphaxiv.org/overview/2504.07951

苹果提出原生多模态Scaling Law！早融合+MoE，性能飙升秘密武器

我们的产品

相关链接

关于我们

联系我们