国思软件 - 月之暗面开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking

　　刚刚，Moonshot AI (月之暗面) 正式开源发布了两款全新的视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking。

　　这两款模型在保持参数规模轻量的同时，展现出极强的多模态理解与推理能力，在多个关键基准测试中超越 GPT-4o 等大模型，彰显了其卓越的技术实力。

　　模型亮点一览：

轻量架构，推理强大
两款模型均采用 MoE（Mixture-of-Experts）架构，激活参数仅约 30 亿，远小于主流大模型的百亿级别，但依旧在多个基准测试中取得优异成绩。
强多模态推理与智能体能力
在 MathVision 多模态数学推理任务中取得 36.8% 的成绩，媲美参数量达其十倍的大模型。
在智能体操作任务 ScreenSpot-Pro 上达到 34.5%，展现出出色的复杂界面理解与执行力。
原生支持高分辨率图像处理
基于 MoonViT 架构，模型在 OCRBench 上得分高达 867，显示了强大的图文识别与理解能力。
超长上下文理解能力
支持长达 128K tokens 的上下文输入：
在 MMLongBench-Doc 测试中达到 35.1%，
在 LongVideoBench 上取得 64.5% 的高分，适用于文档级、视频级等复杂长文本场景。
全面超越大型模型表现
在多个公开基准测试中，Kimi-VL 表现超越 GPT-4o 等参数量远高于自身的模型，证明轻量模型同样可以实现高性能。

　　获取方式

　　Moonshot AI 表示，此次发布只是迈向通用多模态智能的一小步。他们期待社区开发者能基于 Kimi-VL 和 Kimi-VL-Thinking 构建出更多富有创意的应用场景，从文档问答到界面操作，从图文理解到视频分析，可能性无限。

月之暗面开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking