智谱 AI 于 7 月 2 日发布了 GLM-4.1V-Thinking 系列通用视觉推理模型,并宣布获得来自浦东创投集团和张江集团的 10 亿元联合战略投资。
同时,公司推出了全新生态平台 “Agent 应用空间”,并启动 “Agents 开拓者计划”,投入数亿资金扶持 AI Agents 创业团队。
为庆祝模型发布,智谱大模型开放平台为用户提供新模型 Flash 版 1 亿的 “高并发版” Tokens,同时,该模型可通过 API 免费使用。
此次率先开源的是 GLM-4.1V-9B-Thinking,一个 9B 参数量的多模态模型,对应官方平台的 GLM-4.1V-Thinking-Flash。该模型旨在提升模型的深度思考与复杂推理能力。该模型在多项基准测试中表现卓越,其性能在 18 项任务上持平甚至超过了参数量为其 8 倍的 Qwen-2.5-VL-72B 和 GPT-4o 等主流视觉语言模型。
模型具备强大的多模态能力,能够解析长达 2 小时的视频、进行数学与科学推理、看图编写网页,并具备 GUI Agent 能力,可识别并操作手机、电脑等屏幕界面元素,完成用户指令。例如,在解析足球比赛时,模型能理解球员位置和战术特点。
GLM-4.1V-Thinking 模型架构由视觉编码器、MLP 适配器和语言解码器组成,其卓越性能得益于引入了 “课程采样强化学习”(Reinforcement Learning with Curriculum Sampling)策略,通过由易到难的训练任务安排,高效提升了模型在 STEM 解题、智能体任务、文档图表理解等多个领域的推理能力。
目前,GLM-4.1V-9B-Thinking 模型已在 GitHub、魔搭社区及 Hugging Face 上开源。
开源列表
-
文档:https://bigmodel.cn/dev/howuse/visual-reasoning-model/glm-4.1v-thinking
-
ModelScope:https://modelscope.cn/collections/GLM-41V-35d24b6def9f49
-
Hugging Face:https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d
-
HuggingFace 体验链接:https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo