通义千问第二代视觉语言模型宣布开源

　　9 月 2 日消息，阿里云公众号发文，宣布通义千问宣布开源第二代视觉语言模型 Qwen2-VL，并推出 2B、7B 两个尺寸及其量化版本模型。

　　此外，旗舰模型 Qwen2-VL-72B 的 API 已上线阿里云百炼平台，用户可直接调用。

　　相比上一代模型，Qwen2-VL 性能的得到了全面提升：

可读懂不同分辨率和不同长宽比的图片，在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现
能理解 20 分钟以上长视频，支持基于视频的问答、对话和内容创作等应用。
具备强大的视觉智能体能力，可自主操作手机和机器人，借助复杂推理和决策的能力，Qwen2-VL 可以集成到手机、机器人等设备，根据视觉环境和文字指令进行自动操作
理解图像视频中的多语言文本，包括中文、英文，大多数欧洲语言，日语、韩语、阿拉伯语、越南语等

作者：itwriter
来源：互联网
日期：2024-09-03
浏览 (3820)