月之暗面开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking

  刚刚,Moonshot AI (月之暗面) 正式开源发布了两款全新的视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking。

  这两款模型在保持参数规模轻量的同时,展现出极强的多模态理解与推理能力,在多个关键基准测试中超越 GPT-4o 等大模型,彰显了其卓越的技术实力。

  模型亮点一览:

  • 轻量架构,推理强大
    两款模型均采用 MoE(Mixture-of-Experts)架构,激活参数仅约 30 亿,远小于主流大模型的百亿级别,但依旧在多个基准测试中取得优异成绩。

  • 强多模态推理与智能体能力

  • 在 MathVision 多模态数学推理任务中取得 36.8% 的成绩,媲美参数量达其十倍的大模型。

  • 在智能体操作任务 ScreenSpot-Pro 上达到 34.5%,展现出出色的复杂界面理解与执行力。

  • 原生支持高分辨率图像处理
    基于 MoonViT 架构,模型在 OCRBench 上得分高达 867,显示了强大的图文识别与理解能力。

  • 超长上下文理解能力
    支持长达 128K tokens 的上下文输入:

  • 在 MMLongBench-Doc 测试中达到 35.1%,

  • 在 LongVideoBench 上取得 64.5% 的高分,适用于文档级、视频级等复杂长文本场景。

  • 全面超越大型模型表现
    在多个公开基准测试中,Kimi-VL 表现超越 GPT-4o 等参数量远高于自身的模型,证明轻量模型同样可以实现高性能。

  

  

  获取方式

  Moonshot AI 表示,此次发布只是迈向通用多模态智能的一小步。他们期待社区开发者能基于 Kimi-VL 和 Kimi-VL-Thinking 构建出更多富有创意的应用场景,从文档问答到界面操作,从图文理解到视频分析,可能性无限。