国思软件 - 开卷视觉编程！GLM-5V-Turbo上线，一张草图搞定前端

　　听雨发自凹非寺

　　量子位 | 公众号 QbitAI

　　国产大模型，开卷视觉编程，主打一个 AI 看着草图就能 vibe coding。

　　前脚千问刚发完 Qwen3.5-Omni，后脚智谱就上新了多模态 Coding 基座模型——GLM-5V-Turbo

　　给它一个链接，它能直接复刻整个网页前端，还是能理解页面结构和背后交互逻辑的内种：

　　或者给它一个草图、设计稿或者网站截图，它也能立刻生成完整可运行的前端工程，还准确还原版式和配色：

　　这波产品经理狂喜，完全可以自己零门槛做出 demo，再拿去跟开发讨论。

　　要不 Vibe Coding 换个词，以后改叫 Vision Coding？（doge）

　　GLM-5V-Turbo 还让龙虾长出了眼睛，可以解读复杂图表。

　　配合 AutoClaw 已上线的“股票分析师”Skill，龙虾能直接看懂K线走势、估值区间图和券商研报图表，还能生成图文并茂的报告。

　　跑分上，GLM-5V-Turbo 也是表现突出，在多模态 Coding、Agentic 任务以及纯文本 Coding 上都实现了对 Claude Opus 4.6 的超越。

　　在设计稿还原、视觉代码生成、多模态检索与问答、视觉探查等基准上，GLM-5V-Turbo 都相当领先。

　　而在衡量真实 GUI 环境操控能力的 AndroidWorld、WebVoyager 等基准上，同样表现突出。

　　在纯文本 Coding 能力方面，GLM-5V-Turbo 的表现同样保持稳定。这说明视觉能力引入后，纯文本编程与推理能力保持了同等水准

　　重点是，价格也很可观。

　　也难怪有网友锐评：Claude Code 的时代结束了。

　　一张草图画出前端

　　话不多说，上一手实测。

　　先来考考 GLM-5V-Turbo 的 Vision Coding 能力：给它一张草图，让它画出产品前端。

　　图，是真的随手画的，非常简单。不过看不懂没关系，我们再加上提示词：

根据草图设计一个音乐播放器的前端界面，左侧是音乐播放页面，右侧是好歌推荐和音乐播放列表，深色背景，古典风格。

　　GLM-5V-Turbo 的反应很快，大概十几秒的时间，它已经给我写出了 HTML 和 CSS 代码。

　　在 vision coding 的过程中，你也可以不断与它交互，让它按你的要求修改。比如一开始它做出的效果我不太满意，又让它修改了两三次。

　　最后得到了这样一个前端页面：

　　左侧是音乐播放器，点击“播放”键会有唱片播放或停止的效果，左右也可以切歌。

　　右侧上方是好歌推荐，下方是播放列表，和我画的草图基本一致。

　　点击播放列表的每一首歌，左侧的播放页面也会相应切换，基本的交互功能已经有了，页面色调和风格也比较符合提示词要求。

　　美中不足的是，左下角不起眼的“顺序/随机”播放按钮，点击后不会真的按照逻辑切歌，还处于摆设的状态。

　　接下来如果想优化，可以进一步给模型提需求。

　　我们再来看看另一个 case——让 GLM-5V-Turbo 解读论文。

　　这是一篇来自马萨诸塞大学的经济学实证研究论文，里面复杂的公式和图表很多。

　　但是 GLM-5V-Turbo 的优势就在于——可视化

　　它直接帮我们拆解了整篇论文的结构，把核心发现、主要结论和相应图表都提炼了出来，还生成了一个图文并茂的报告。

　　这对于外行来说太友好了，扫一眼就能大概看懂这篇研究在做什么，每个图表对应的含义是怎样的。

　　转念一想，这其实也相当于另一个形式的 ppt？学生党做论文 pre 都可以直接拿来用了。

　　给龙虾安上“眼睛”

　　智谱这次还特别拓展了龙虾的任务边界，给自家澳龙安上了“眼睛”。

　　在 AutoClaw 中选择 GLM-5V-Turbo 模型，你就可以让它浏览网页和文档，做报告和 PPT，还可以解读复杂图表。

　　澳龙已经上线了“股票分析师”skill，完美适配 GLM-5V-Turbo 解读复杂图表的能力。

　　我在飞书上给它截图了一张英伟达股票图，让它帮我分析一下。

　　没过多久，它就给我生成了一份图文并茂的分析报告：

　　整体内容还是挺详细的，还给出了基本面分析和操作建议，简单作为一个参考是足够了的。

　　这么强，咋做到的？

　　据官方介绍，GLM-5V-Turbo 在模型架构、训练方法、数据构造、工具链四个层面都做了升级：

　　第一，原生多模态融合。

　　GLM-5V-Turbo 从预训练阶段就把文本和图像能力一起训练，后面再通过进一步优化，让两者配合更默契。

　　同时，他们做了一个新的视觉编码器（CogViT），在识别物体、理解细节、空间关系这些能力上都更强。

　　再加上一个更适合多模态推理的结构（MTP），整体推理效率也更高。

　　第二，30+ 任务协同强化学习。

　　在强化学习阶段，模型同时训练了 30 多个任务，覆盖 STEM 推理、图像定位（grounding）、视频理解、GUI 操作等多个方向。

　　这样带来的好处是：模型不只是某一项能力强，而是感知、推理、执行整体更均衡，也更稳定，避免了只在单一领域“偏科”。

　　第三，专门为 Agent 能力设计数据。

　　Agent 最大的难点是：数据少、而且很难验证对不对。

　　智谱的做法是：

搭了一套从“看懂元素”到“预测一连串动作”的训练体系；
用合成环境大规模生成可控、可验证的数据；
甚至在预训练阶段就提前加入 Agent 相关能力（比如 GUI 操作数据），减少模型幻觉。

　　另外，还用了类似“以评估反推能力”的方法，用多模态任务去倒逼模型变得更像一个能干活的 Agent。

　　第四，把工具链从“纯文本”升级到“能看能操作”。

　　除了原有的文本工具，GLM-5V-Turbo 新增支持多模态搜索、画框、截图、读网页等多模态 tools。

　　这意味着模型能真正做到一整套闭环：看懂环境 → 规划步骤 → 动手执行。

　　而且它和 Claude Code、AutoClaw 这些工具的配合也更好了，整体更接近一个能实际完成任务的智能体。

　　目前，新模型在Z.ai 和 AutoClaw 上都可以体验，也支持 API 调用，感兴趣的朋友快去试试吧~

　　AutoClaw（澳龙）：https://autoglm.zhipuai.cn/autoclaw/

　　Z.ai：https://chat.z.ai

　　API 接入：

　　https://docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turbo

开卷视觉编程！GLM-5V-Turbo上线，一张草图搞定前端

我们的产品

相关链接

关于我们

联系我们