豆包家族首款全模态大模型 Doubao-Seed-2.0-lite 上线

　　字节跳动旗下火山引擎昨日宣布，Doubao-Seed-2.0-lite 完成版本升级，成为豆包大模型家族首款支持视频、图像、音频与文本统一理解的全模态模型。

视觉理解能力超越今年 2 月发布的 Doubao-Seed-2.0-pro，在物理、医疗等学科推理及细粒度感知领域达到同类最优水平；
新增音频理解能力，支持 19 个语种语音转写、中英文与 14 个语种互译，语音识别和翻译基准成绩优于 Gemini-3.1-Pro；
视频理解可同步分析画面与声音，支持跨时间段追踪人物与事件；
AI 智能体能力增强，支持长程任务自我拆解与校验，深度适配 OpenClaw、Hermes Agent 等框架；
GUI 能力打通界面识别与操作执行，可跨应用、跨窗口连续完成业务流程。

　　同期上线的 Doubao-Seed-2.0-mini 新版同样支持全模态理解，相比上一版本思考长度大幅缩短，Token 效率更高。

作者：itwriter
来源：互联网
日期：2026-05-08
浏览 (2821)