4 月 17 日,火山引擎公布了模型、Agent 工具、云基础设施的最新进展:
- 发布豆包 1.5·深度思考模型,升级豆包·文生图模型 3.0、豆包·视觉理解模型。
- 面向 Agent 服务,发布 OS Agent 解决方案、GUI Agent 大模型 —— 豆包 1.5·UI-TARS 模型;
- 面向大规模推理,发布 AI 云原生·ServingKit 推理套件。
全新发布的豆包 1.5·深度思考模型采用 MoE 架构,总参数为 200B,激活参数仅 20B,具备显著的训练和推理成本优势。基于高效算法,豆包 1.5·深度思考模型在提供行业极高并发承载能力的同时,实现 20 毫秒极低延迟。另外,豆包 App 基于豆包 1.5·深度思考模型进行了定向训练,支持「边想边搜」。
官方介绍,豆包 1.5·深度思考模型在数学、代码、科学等专业领域推理任务中表现出色,在多个基准测试中媲美甚至超越 DeepSeek-R1、QWQ-32B、OpenAI o1 等模型;在创意写作等非推理任务中,模型也展示出优秀的泛化能力。
此次全新升级的豆包·文生图模型 3.0,能够实现更好的文字排版表现、实拍级的图像生成效果,以及 2K 的高清图片生成方式。在最新的文生图领域权威榜单 Artificial Analysis 竞技场中,豆包·文生图 3.0 模型已超越业界诸多主流模型,排名全球第一梯队。
而新版本的豆包·视觉理解模型具备更强的视觉定位能力,支持多目标、小目标、通用目标的框定位和点定位,并支持定位计数、描述定位内容、3D 定位。同时,新版本在视频理解能力上也有大幅提升,比如记忆、总结理解、速度感知、长视频理解等。
此外,针对复杂的 OS Agent,火山引擎正式发布 GUI Agent 大模型 —— 豆包 1.5·UI-TARS 模型。该模型将屏幕视觉理解、逻辑推理、界面元素定位和操作整合在单一模型中,突破了传统自动化工具依赖预设规则的局限。目前,豆包 1.5·UI-TARS 模型已在火山方舟平台上线。