华中科技大学推出InfiniteVL:让视频对话AI彻底摆脱"健忘症"

  这项由华中科技大学陶弘远、廖本承等研究者与地平线机器人公司合作的重大突破,发表于 2025 年 12 月的 arXiv 预印本论文(论文编号:arXiv:2512.08829v1),为解决现有视觉语言模型在处理长视频时的根本性缺陷提供了革命性解决方案。有兴趣深入了解技术细节的读者可以通过该论文编号在 arXiv 平台查询完整研究报告。

  想象你正在和一个朋友聊天看电影,但这个朋友每隔几分钟就会完全忘记之前发生的情节,你不得不重复解释前面的内容。这恰恰是当前最先进的 AI 视觉模型面临的尴尬境地。当我们要求 AI 观看一段长视频并回答相关问题时,它们要么"记忆力有限"只能记住最近几分钟的内容,要么处理速度极慢,无法胜任实时应用的需求。

  华中科技大学的研究团队发现了一个令人困扰的现实:目前的 AI 模型在处理视频理解任务时,就像是用手电筒在黑暗中探路,只能看清眼前有限的区域,无法获得全景视野。这种局限性源于传统注意力机制的设计缺陷——随着输入长度的增加,计算复杂度呈平方级增长,内存需求也急剧膨胀,最终导致系统崩溃或性能急剧下降。

  研究团队观察到,现有解决方案通常采用两种极端策略。第一种是"滑动窗口"方法,就像开车时只看前方几米的路况,虽然计算效率高,但一旦遇到需要回忆更早信息的情况就束手无策。第二种是"线性注意力"方法,虽然能保持长期记忆,但在处理细节丰富的任务时表现不佳,特别是需要精确识别文字或复杂图像内容的场景。

  面对这个两难困境,研究团队提出了 InfiniteVL——一个巧妙结合两种策略优势的混合架构。这就像是为 AI 配备了一个"双重记忆系统":一个负责精确记录最近发生的细节,另一个负责维护整体的长期记忆脉络。具体而言,InfiniteVL 采用了 75% 的门控 DeltaNet 层处理长期记忆,25% 的滑动窗口注意力层处理局部细节。这种比例经过精心调优,既保证了对细节信息的精确捕捉,又确保了长期记忆的有效维持。

  门控 DeltaNet 是这个系统的"长期记忆大师"。它通过一种类似人脑记忆巩固的机制,将重要信息压缩存储在固定大小的记忆矩阵中。当新信息到来时,系统会智能地决定哪些旧信息需要遗忘,哪些需要保留,从而避免了传统方法中记忆容量无限增长的问题。这种设计让 AI 能够在处理超长视频时保持稳定的计算复杂度和内存占用。

  与此同时,滑动窗口注意力层则充当"短期记忆专家",专门负责捕捉当前时刻周围的精细信息。这种局部注意力机制在处理文字识别、图表理解等需要高精度的任务时表现出色,确保 AI 不会因为专注长期记忆而忽视眼前的重要细节。

  一、突破传统局限的混合记忆架构

  传统的视觉语言模型面临着一个根本性的计算困境。每当模型处理更长的输入序列时,其计算需求就会按照平方规律急剧增长。这种增长就像城市交通拥堵一样,当车辆数量翻倍时,交通拥堵程度却可能增加四倍。对于 AI 模型来说,这意味着处理 10 分钟视频的计算量可能是处理 5 分钟视频的四倍,而不是简单的两倍。

  InfiniteVL 的创新之处在于重新设计了信息处理的基本单元。研究团队发现,人类大脑在处理连续信息时采用了一种层次化的记忆策略:海马体负责快速编码新信息,而大脑皮层则负责长期存储和整合。受此启发,他们设计了一个包含 9 个混合模块的架构,每个模块都包含一个滑动窗口注意力层和三个门控 DeltaNet 层。

  门控 DeltaNet 层的工作原理可以比作一个高效的图书馆管理员。当新书(新信息)进入时,管理员会根据书籍的重要性和相关性决定将其放在何处,同时可能需要移除一些不再重要的旧书以腾出空间。这个过程通过数学公式精确控制:系统维护一个固定大小的记忆矩阵,通过可学习的门控机制决定如何更新这个矩阵。门控参数会根据输入内容自动调整,确保重要信息被优先保留。

  滑动窗口注意力层则像是一个精密的显微镜,专门观察当前焦点周围 8192 个令牌范围内的所有细节。这个窗口大小经过精心选择,既足够大以捕捉局部上下文信息,又足够小以保持计算效率。更重要的是,这种局部注意力与旋转位置编码(RoPE)结合,确保模型能够准确理解元素之间的空间和时间关系。

  这种混合架构的另一个巧妙之处在于其不对称设计。门控 DeltaNet 层使用 16 个查询头和相应数量的键值头,为长期记忆分配了更大的容量。同时,系统还在门控 DeltaNet 层中加入了一维卷积(窗口大小为4)和输出门,进一步增强其表达能力。这种设计确保了模型既能高效处理长序列,又能保持对细节的敏感性。

  二、三阶段渐进式训练策略的精巧设计

  要让 InfiniteVL 发挥出色的性能,研究团队设计了一个类似培养专业技能的三阶段训练策略。这个过程就像培养一名同声传译员一样:首先要掌握基础语言能力,然后学会理解和回应指令,最后专门训练长时间连续工作的能力。

  第一阶段是"蒸馏预训练",这个阶段的核心思想是让 InfiniteVL 从已经成熟的教师模型那里学习基础能力。研究团队选择了 Qwen2.5-VL 作为教师模型,这就像让经验丰富的老师傅带徒弟一样。具体的学习过程分为两个层次:层级对齐和端到端蒸馏。

  层级对齐阶段,系统会将相同的输入分别送给教师模型的第i层和学生模型的第i层,然后计算两者输出之间的均方误差。这种"同样输入,对比输出"的方法能够迅速让学生模型的每一层都学会模仿教师模型的行为模式。随后的端到端蒸馏阶段,则是让整个学生模型学习如何产生与教师模型相似的最终输出分布,通过 KL 散度最小化来实现这种对齐。

  这个阶段使用了约 100 万个多模态问答和标题生成数据样本,图像分辨率限制在 512×512 像素,输入长度上限设为 8192 个令牌。这种相对保守的设置是为了确保训练稳定性,让模型能够在受控环境下掌握基础技能。

  第二阶段是"指令微调",目标是让模型学会理解和执行各种类型的指令。这个阶段就像教会 AI 如何与人类自然对话,不仅要理解问题的字面意思,还要把握用户的真实意图并给出恰当回应。研究团队在这个阶段使用了约 800 万个多样化的多模态监督微调数据,覆盖了通用视觉问答、图像描述、图表理解、文档分析、数学推理、科学教育、代码编程等八个主要领域。

  在这个阶段,系统将图像分辨率提升到 1344×1344 像素,显著增强了对细节的感知能力。同时,训练目标从简单的输出模仿转变为基于交叉熵损失的目标令牌预测,这种变化让模型学会了更自然的语言生成模式。通过这种多样化训练,InfiniteVL 不仅继承了教师模型的基础能力,还在某些指标上实现了超越。

  第三阶段是"长序列微调",专门训练模型处理超长输入的能力。这个阶段就像让运动员进行马拉松训练,不仅要保持技能水平,还要大幅提升耐力。系统将最大输入长度扩展到 32768 个令牌,使用了 20 万个长视频问答样本和 80 万个第二阶段的数据样本进行混合训练。

  长视频数据来自 LLaVA-Video-178K 数据集,每个视频以 10 帧每秒的频率采样,最长可达 224 帧,每帧编码为最多 256 个令牌。这种设置让模型能够处理长达 22 秒的高清视频内容,同时保持对每一帧细节的理解。值得注意的是,这个阶段采用了低秩适应(LoRA)技术,在保持模型核心能力的同时,专门优化长序列处理性能。

  三、实验验证展现的卓越性能表现

  为了全面评估 InfiniteVL 的性能,研究团队设计了一系列严格的测试,就像对新产品进行全方位的质量检验。这些测试不仅要验证模型在标准基准测试上的表现,还要特别关注其在长序列处理方面的独特优势。

  在标准多模态理解任务上,InfiniteVL 展现出了与传统 Transformer 架构相当甚至更优的性能。在 MME、MMStar、MMBench 等综合性基准测试中,InfiniteVL-4B 模型的平均得分达到 75.8 分,超过了同等规模的多个主流模型。特别值得关注的是,在文本密集型任务如 OCR、图表理解和文档分析方面,InfiniteVL 的表现尤为出色,在 ChartQA 测试中得分 82.0,在 DocVQA 测试中得分 91.7,在 OCRBench 中得分 79.8。

  这些结果证明了混合架构设计的有效性。滑动窗口注意力层在处理需要精细视觉理解的任务时发挥了关键作用,而门控 DeltaNet 层则确保了模型能够整合来自不同区域的信息。相比之下,纯线性注意力模型在这些任务上的表现明显逊色,验证了研究团队关于需要混合架构的判断。

  长序列理解能力的测试更是展现了 InfiniteVL 的独特优势。研究团队使用 Video-MME 和 LongVideoBench 两个专门的长视频理解基准进行评估,测试设置包括 8 到 1024 帧的不同长度输入,对应 2K 到 256K 令牌的上下文长度。结果显示,随着输入长度增加,传统滑动窗口模型的性能出现明显下降,而 InfiniteVL 不仅保持了稳定的性能,甚至在某些情况下表现更佳。

  这种性能优势的根源在于门控 DeltaNet 层的长期记忆能力。研究团队通过可视化分析发现,线性层的记忆矩阵在输入序列增长的早期阶段快速扩展,然后稳定在一个平台期,避免了无限制的内存增长。这种行为模式类似于人类大脑的记忆巩固过程,既保留了重要信息,又避免了信息过载。

  四、计算效率优势带来的实际应用价值

  InfiniteVL 最令人印象深刻的特点之一是其在计算效率方面的显著优势。这种优势不仅体现在理论计算复杂度上,更重要的是在实际部署场景中的表现。研究团队在 NVIDIA RTX 4090 显卡上进行的测试表明,InfiniteVL 在处理长序列时展现出了传统模型无法企及的效率优势。

  在长上下文推理场景中,InfiniteVL 展现出了近乎恒定的每令牌延迟,无论输入长度如何变化,处理速度都维持在每秒 100 个令牌以上的水平。与此形成鲜明对比的是,传统 Transformer 模型的延迟随输入长度线性增长,在处理 5 万个令牌时就显现出 3.6 倍的性能劣势,这种差距在更长序列中进一步扩大到 8 倍以上。

  更为关键的是内存使用模式的根本性差异。InfiniteVL 在整个推理过程中保持约 9GB 的恒定内存占用,这使得它能够在消费级显卡上稳定运行,即使面对理论上无限长的输入序列。传统模型则因为不断增长的键值缓存而面临内存溢出的困扰,通常在处理 30-35 万个令牌时就会遭遇系统崩溃。

  流媒体视频理解场景的测试更是展现了 InfiniteVL 的实用价值。研究团队设置了每帧 274 个令牌的编码方式,模拟实时视频流处理的真实场景。测试结果显示,InfiniteVL 能够保持稳定的 24 帧每秒处理速度,达到真正的实时性能要求。这种能力通过 CUDA 图优化技术得到了进一步增强,系统能够将稳定的执行路径编译成静态图,消除运行时调度开销。

  传统 Transformer 模型在同样的流媒体测试中表现则令人失望。虽然初始处理速度约为 10 帧每秒,但随着历史键值缓存的累积,性能迅速恶化,在处理 200 帧后降至 1 帧每秒以下,并最终在第 294 帧时因内存不足而崩溃。这种性能衰减模式使得传统模型完全无法胜任需要长时间连续处理的实际应用。

  五、架构设计细节的深入分析

  InfiniteVL 架构设计的精妙之处在于其对不同组件比例的精心平衡。研究团队通过大量实验验证了1:3 的滑动窗口注意力与门控 DeltaNet 层比例是最优选择。这个比例既确保了对局部细节的充分关注,又提供了强大的长期记忆能力。

  实验结果表明,即使只有1/8 的滑动窗口层,也能在文本密集型任务上带来显著改善。当比例增加到1/4 时,性能增益更加明显,但继续增加比例的边际收益递减。这种现象反映了两种注意力机制之间的互补关系:滑动窗口层主要负责局部信息整合,而门控 DeltaNet 层则承担全局信息的压缩和传递。

  门控 DeltaNet 的设计也经过了精心优化。相比于原始线性注意力、Mamba 或门控线性注意力等替代方案,门控 DeltaNet 在信息密集型任务上表现出明显优势。这种优势源于其更有效的状态压缩机制和 Householder 式旋转操作,能够缓解传统线性注意力中的低秩崩溃问题。

  滑动窗口大小的选择也体现了设计的巧思。8192 个令牌的窗口大小平衡了性能和效率的需求,既足够捕捉重要的局部上下文,又不会造成过度的计算负担。结合 RoPE 位置编码,这种设计避免了长距离位置外推可能导致的不稳定性。

  六、训练策略有效性的实证验证

  研究团队通过消融实验详细验证了三阶段训练策略的必要性。实验结果清晰地显示了每个阶段的独特价值和不可替代性。直接跳过蒸馏预训练阶段进行指令微调的尝试完全失败,模型无法收敛到可用状态,这证明了知识蒸馏对于线性架构初始化的重要性。

  仅进行蒸馏预训练的模型虽然能够获得基础对话能力,但性能明显受限于教师模型的水平。只有加入指令微调阶段,模型才能在多个指标上超越教师模型,展现出独立的学习和泛化能力。这种超越表明,线性架构在经过适当训练后,能够在某些方面发挥出比传统 Transformer 更好的效果。

  长序列微调阶段的价值在长视频理解任务中得到了充分体现。没有经过这一阶段训练的模型在处理超过 32 帧的视频时性能明显下降,而经过长序列微调的模型则能够稳定处理 1024 帧的超长视频,性能甚至随着帧数增加而提升。

  这种训练策略的成功也为其他类似研究提供了重要参考。通过渐进式的能力构建,研究团队证明了即使是结构差异显著的架构也能够有效继承预训练模型的知识,同时发展出独特的优势能力。

  七、实际应用场景的广阔前景

  InfiniteVL 的技术特性使其在多个实际应用场景中具有独特优势。在自动驾驶领域,车载系统需要持续处理来自多个摄像头的视频流,同时保持对历史场景的记忆以做出合理的驾驶决策。InfiniteVL 的恒定内存占用和实时处理能力使其特别适合这种连续感知任务。

  安防监控是另一个重要应用方向。传统的视频分析系统通常只能处理短时间片段,难以发现跨越较长时间的异常行为模式。InfiniteVL 的长期记忆能力使其能够关联分析数小时甚至数天的监控录像,识别出人类分析师可能遗漏的复杂行为模式。

  在内容创作和媒体分析领域,InfiniteVL 能够处理长形式的视频内容,自动生成详细的内容摘要、标签或字幕。这种能力对于视频平台的内容管理和推荐系统具有重要价值,能够显著提高内容处理的效率和准确性。

  医疗影像分析是另一个具有巨大潜力的应用领域。医生在分析连续的医学影像(如手术录像或动态影像学检查)时,需要综合考虑整个时间序列的信息。InfiniteVL 的能力使其能够协助医生进行更全面的诊断分析,特别是在需要长时间观察的病理过程中。

  教育技术领域也能从 InfiniteVL 的能力中受益。智能教学系统可以实时分析学生的学习视频,理解学生的学习状态和困难点,同时保持对整个学习过程的记忆,从而提供更个性化的教学建议。

  总结来说,华中科技大学研究团队的这项突破性工作不仅解决了现有视觉语言模型的根本性限制,更为未来的 AI 应用开辟了新的可能性。InfiniteVL 证明了通过巧妙的架构设计和训练策略,可以在保持强大性能的同时实现真正的长序列处理能力。这种技术突破的意义不仅在于性能指标的提升,更在于它为 AI 系统在真实世界中的部署扫清了重要障碍。

  随着计算资源的进一步优化和模型规模的扩大,我们有理由相信 InfiniteVL 代表的混合架构范式将在更多领域展现出革命性的应用潜力。这项研究为构建真正智能的、能够进行长期交互的 AI 系统奠定了坚实基础,标志着视觉语言模型发展历程中的一个重要里程碑。对于希望深入了解技术实现细节的研究者,完整的论文、代码和演示已在 GitHub 上的 hustvl/InfiniteVL 项目中开源发布。

  Q&A

  Q1:InfiniteVL 跟普通的 AI 视频理解模型有什么不同?

  A:InfiniteVL 最大的不同在于它拥有"无限记忆"能力,能够同时处理超长视频并记住所有历史信息,而普通 AI 模型要么只能记住最近几分钟的内容,要么处理长视频时速度极慢甚至崩溃。InfiniteVL 通过混合架构实现了 24FPS 的实时处理,内存占用恒定在 9GB 左右。

  Q2:InfiniteVL 的混合架构是如何工作的?

  A:InfiniteVL 采用了 75% 的门控 DeltaNet 层和 25% 的滑动窗口注意力层。门控 DeltaNet 层像长期记忆专家,将重要信息压缩存储在固定大小的记忆矩阵中;滑动窗口层像短期记忆专家,专门捕捉当前时刻周围的精细信息。这种设计让 AI 既能保持长期记忆,又不会忽视眼前的重要细节。

  Q3:InfiniteVL 可以应用在哪些实际场景中?

  A:InfiniteVL 特别适合需要长时间连续视频分析的场景,比如自动驾驶车辆的环境感知、安防监控的异常行为检测、长视频内容的自动分析和字幕生成、医疗影像的动态诊断分析,以及教育场景中的学习状态实时监测。它的恒定内存占用和实时处理能力使其能在消费级设备上稳定运行。