国思软件 - 智谱AI开源通用视觉推理模型 GLM-4.1V-Thinking

　　智谱 AI 于 7 月 2 日发布了 GLM-4.1V-Thinking 系列通用视觉推理模型，并宣布获得来自浦东创投集团和张江集团的 10 亿元联合战略投资。

　　同时，公司推出了全新生态平台 “Agent 应用空间”，并启动 “Agents 开拓者计划”，投入数亿资金扶持 AI Agents 创业团队。

　　为庆祝模型发布，智谱大模型开放平台为用户提供新模型 Flash 版 1 亿的 “高并发版” Tokens，同时，该模型可通过 API 免费使用。

　　此次率先开源的是 GLM-4.1V-9B-Thinking，一个 9B 参数量的多模态模型，对应官方平台的 GLM-4.1V-Thinking-Flash。该模型旨在提升模型的深度思考与复杂推理能力。该模型在多项基准测试中表现卓越，其性能在 18 项任务上持平甚至超过了参数量为其 8 倍的 Qwen-2.5-VL-72B 和 GPT-4o 等主流视觉语言模型。

　　模型具备强大的多模态能力，能够解析长达 2 小时的视频、进行数学与科学推理、看图编写网页，并具备 GUI Agent 能力，可识别并操作手机、电脑等屏幕界面元素，完成用户指令。例如，在解析足球比赛时，模型能理解球员位置和战术特点。

　　GLM-4.1V-Thinking 模型架构由视觉编码器、MLP 适配器和语言解码器组成，其卓越性能得益于引入了 “课程采样强化学习”（Reinforcement Learning with Curriculum Sampling）策略，通过由易到难的训练任务安排，高效提升了模型在 STEM 解题、智能体任务、文档图表理解等多个领域的推理能力。

　　目前，GLM-4.1V-9B-Thinking 模型已在 GitHub、魔搭社区及 Hugging Face 上开源。

　　开源列表

文档：https://bigmodel.cn/dev/howuse/visual-reasoning-model/glm-4.1v-thinking
Github：https://github.com/THUDM/GLM-4.1V-Thinking
ModelScope：https://modelscope.cn/collections/GLM-41V-35d24b6def9f49
Hugging Face：https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d
HuggingFace 体验链接：https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo

智谱AI开源通用视觉推理模型 GLM-4.1V-Thinking

我们的产品

相关链接

关于我们

联系我们