国思软件 - 国产多模态大模型开源！无条件免费商用，性能超Claude 3 Sonnet

　　简曈发自凹非寺

　　量子位公众号 QbitAI

　　又一个国产多模态大模型开源！

　　XVERSE-V，来自元象，还是同样的无条件免费商用。

　　此前元象曾率先发布国内规模最大的开源大模型，如今开源家族系列又多了一个。

　　最新的多模态大模型支持任意宽高比图像输入，在主流评测中保持着效果领先——

　　在多项权威多模态评测中，XVERSE-V 超过零一万物 Yi-VL-34B、面壁智能 OmniLMM-12B 及深度求索 DeepSeek-VL-7B 等开源模型。

　　在综合能力测评 MMBench 中超过了谷歌 GeminiProVision、阿里 Qwen-VL-Plus 和 Claude-3V Sonnet 等知名闭源模型。

　　支持任意长宽比图像输入

　　传统的多模态模型的图像表示只有整体，XVERSE-V 采用了融合整体和局部的策略，支持输入任意宽高比的图像。

　　兼顾全局的概览信息和局部的细节信息，能够识别和分析图像中的细微特征，看的更清楚，理解的更准确

　　这样的处理方式使模型可以应用于广泛的领域，包括全景图识别、卫星图像、古文物扫描分析等。

　　除了基本能力表现不错，也能轻松应对各种不同的实际应用场景，比如图表、文献、代码转化、视障真实场景等。

　　图表理解。

　　不论是复杂图文结合的信息图理解，还是单一图表的分析与计算，模型都能够自如应对。

　　自动驾驶。

　　代码撰写。

　　还有视障真实场景。

　　在真实视障场景测试集 VizWiz 中，XVERSE-V 的表现超过了 InternVL-Chat-V1.5、DeepSeek-VL-7B 等几乎所有主流的开源多模态大模型。该测试集包含了来自真实视障用户提出的超过 31000 个视觉问答，能准确反映用户的真实需求与琐碎细小的问题，帮助视障人群克服他们日常真实的视觉挑战。