开卷视觉编程!GLM-5V-Turbo上线,一张草图搞定前端

  听雨发自凹非寺

  量子位 | 公众号 QbitAI

  国产大模型,开卷视觉编程,主打一个 AI 看着草图就能 vibe coding。

  前脚千问刚发完 Qwen3.5-Omni,后脚智谱就上新了多模态 Coding 基座模型——GLM-5V-Turbo

  给它一个链接,它能直接复刻整个网页前端,还是能理解页面结构和背后交互逻辑的内种:

  或者给它一个草图、设计稿或者网站截图,它也能立刻生成完整可运行的前端工程,还准确还原版式和配色:

  这波产品经理狂喜,完全可以自己零门槛做出 demo,再拿去跟开发讨论。

  要不 Vibe Coding 换个词,以后改叫 Vision Coding?(doge)

  GLM-5V-Turbo 还让龙虾长出了眼睛,可以解读复杂图表。

  配合 AutoClaw 已上线的“股票分析师”Skill,龙虾能直接看懂K线走势、估值区间图和券商研报图表,还能生成图文并茂的报告。

  跑分上,GLM-5V-Turbo 也是表现突出,在多模态 Coding、Agentic 任务以及纯文本 Coding 上都实现了对 Claude Opus 4.6 的超越。

  在设计稿还原、视觉代码生成、多模态检索与问答、视觉探查等基准上,GLM-5V-Turbo 都相当领先。

  而在衡量真实 GUI 环境操控能力的 AndroidWorld、WebVoyager 等基准上,同样表现突出。

  在纯文本 Coding 能力方面,GLM-5V-Turbo 的表现同样保持稳定。这说明视觉能力引入后,纯文本编程与推理能力保持了同等水准

  重点是,价格也很可观。

  也难怪有网友锐评:Claude Code 的时代结束了。

  一张草图画出前端

  话不多说,上一手实测。

  先来考考 GLM-5V-Turbo 的 Vision Coding 能力:给它一张草图,让它画出产品前端。

  图,是真的随手画的,非常简单。不过看不懂没关系,我们再加上提示词:

根据草图设计一个音乐播放器的前端界面,左侧是音乐播放页面,右侧是好歌推荐和音乐播放列表,深色背景,古典风格。

  GLM-5V-Turbo 的反应很快,大概十几秒的时间,它已经给我写出了 HTML 和 CSS 代码。

  在 vision coding 的过程中,你也可以不断与它交互,让它按你的要求修改。比如一开始它做出的效果我不太满意,又让它修改了两三次。

  最后得到了这样一个前端页面:

  左侧是音乐播放器,点击“播放”键会有唱片播放或停止的效果,左右也可以切歌。

  右侧上方是好歌推荐,下方是播放列表,和我画的草图基本一致。

  点击播放列表的每一首歌,左侧的播放页面也会相应切换,基本的交互功能已经有了,页面色调和风格也比较符合提示词要求。

  美中不足的是,左下角不起眼的“顺序/随机”播放按钮,点击后不会真的按照逻辑切歌,还处于摆设的状态。

  接下来如果想优化,可以进一步给模型提需求。

  我们再来看看另一个 case——让 GLM-5V-Turbo 解读论文。

  这是一篇来自马萨诸塞大学的经济学实证研究论文,里面复杂的公式和图表很多。

  但是 GLM-5V-Turbo 的优势就在于——可视化

  它直接帮我们拆解了整篇论文的结构,把核心发现、主要结论和相应图表都提炼了出来,还生成了一个图文并茂的报告。

  这对于外行来说太友好了,扫一眼就能大概看懂这篇研究在做什么,每个图表对应的含义是怎样的。

  转念一想,这其实也相当于另一个形式的 ppt?学生党做论文 pre 都可以直接拿来用了。

  给龙虾安上“眼睛”

  智谱这次还特别拓展了龙虾的任务边界,给自家澳龙安上了“眼睛”。

  在 AutoClaw 中选择 GLM-5V-Turbo 模型,你就可以让它浏览网页和文档,做报告和 PPT,还可以解读复杂图表。

  澳龙已经上线了“股票分析师”skill,完美适配 GLM-5V-Turbo 解读复杂图表的能力。

  我在飞书上给它截图了一张英伟达股票图,让它帮我分析一下。

  没过多久,它就给我生成了一份图文并茂的分析报告:

  整体内容还是挺详细的,还给出了基本面分析和操作建议,简单作为一个参考是足够了的。

  这么强,咋做到的?

  据官方介绍,GLM-5V-Turbo 在模型架构、训练方法、数据构造、工具链四个层面都做了升级:

  第一,原生多模态融合。

  GLM-5V-Turbo 从预训练阶段就把文本和图像能力一起训练,后面再通过进一步优化,让两者配合更默契。

  同时,他们做了一个新的视觉编码器(CogViT),在识别物体、理解细节、空间关系这些能力上都更强。

  再加上一个更适合多模态推理的结构(MTP),整体推理效率也更高。

  第二,30+ 任务协同强化学习。

  在强化学习阶段,模型同时训练了 30 多个任务,覆盖 STEM 推理、图像定位(grounding)、视频理解、GUI 操作等多个方向。

  这样带来的好处是:模型不只是某一项能力强,而是感知、推理、执行整体更均衡,也更稳定,避免了只在单一领域“偏科”。

  第三,专门为 Agent 能力设计数据。

  Agent 最大的难点是:数据少、而且很难验证对不对。

  智谱的做法是:

  • 搭了一套从“看懂元素”到“预测一连串动作”的训练体系;
  • 用合成环境大规模生成可控、可验证的数据;
  • 甚至在预训练阶段就提前加入 Agent 相关能力(比如 GUI 操作数据),减少模型幻觉。

  另外,还用了类似“以评估反推能力”的方法,用多模态任务去倒逼模型变得更像一个能干活的 Agent。

  第四,把工具链从“纯文本”升级到“能看能操作”。

  除了原有的文本工具,GLM-5V-Turbo 新增支持多模态搜索、画框、截图、读网页等多模态 tools。

  这意味着模型能真正做到一整套闭环:看懂环境 → 规划步骤 → 动手执行。

  而且它和 Claude Code、AutoClaw 这些工具的配合也更好了,整体更接近一个能实际完成任务的智能体。

  目前,新模型在Z.ai 和 AutoClaw 上都可以体验,也支持 API 调用,感兴趣的朋友快去试试吧~

  AutoClaw(澳龙):https://autoglm.zhipuai.cn/autoclaw/

  Z.ai:https://chat.z.ai

  API 接入:

  https://docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turbo