豆包家族首款全模态大模型 Doubao-Seed-2.0-lite 上线

  字节跳动旗下火山引擎昨日宣布,Doubao-Seed-2.0-lite 完成版本升级,成为豆包大模型家族首款支持视频、图像、音频与文本统一理解的全模态模型。

  • 视觉理解能力超越今年 2 月发布的 Doubao-Seed-2.0-pro,在物理、医疗等学科推理及细粒度感知领域达到同类最优水平;
  • 新增音频理解能力,支持 19 个语种语音转写、中英文与 14 个语种互译,语音识别和翻译基准成绩优于 Gemini-3.1-Pro;
  • 视频理解可同步分析画面与声音,支持跨时间段追踪人物与事件;
  • AI 智能体能力增强,支持长程任务自我拆解与校验,深度适配 OpenClaw、Hermes Agent 等框架;
  • GUI 能力打通界面识别与操作执行,可跨应用、跨窗口连续完成业务流程。

  同期上线的 Doubao-Seed-2.0-mini 新版同样支持全模态理解,相比上一版本思考长度大幅缩短,Token 效率更高。