阿里开源「深度研究」王炸Agent,登顶开源Agent模型榜首

  智东西

  作者王涵

  编辑漠影

  智东西 9 月 17 日报道,今天凌晨,阿里巴巴开源了其首个深度研究 Agent 模型:通义 DeepResearch。

  在 Humanity’s Last Exam(HLE)、BrowseComp、BrowseComp-ZH、GAIA、xbench-deepsearch、WebWalkerQA 以及 Frames 等权威 Agent 评测集中,通义 DeepResearch 模型凭借 3B 激活参数,性能超越基于 OpenAI o3、DeepSeek V3.1 和 Claude-4-Sonnet 等旗舰模型的 ReAct Agent(推理-行动智能体)。

  ▲基准测试成绩排名

  ▲基准测试分数

  目前,通义 DeepResearch 的模型、框架和方案已在 Github、Hugging Face 和魔搭社区全面开源,开发者和用户可自行下载模型与代码。

  下载地址:

  Github:

  https://github.com/Alibaba-NLP/DeepResearch

  Hugging Face:

  https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B

  魔搭社区:

  https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B

  深度研究作为近一年的 AI 研究热点,吸引了谷歌、OpenAI、Anthropic 等众多主流企业投入研发。

  深度研究研发的现有方法大多采用“单窗口、线性累加”的信息处理模式,在处理长周期任务时,Agent 易遭遇“认知空间窒息”与“不可逆的噪声污染”,导致推理能力降低,难以完成复杂研究任务。

  据介绍,为解决这些问题,阿里通义团队构建了一套合成数据驱动的完整训练链路,覆盖预训练与后训练阶段。

  该链路以 Qwen3-30B-A3B 模型为基础进行优化,设计了 RL 算法验证与真实训练模块,涵盖真实与虚拟环境,并借助异步强化学习算法及自动化数据策展流程,有效提升了模型的迭代速度与泛化能力。

  在推理阶段,通义团队还设计了 ReAct 和基于自研 IterResearch 的 Heavy 两种模式。ReAct 用于精准评估模型的基础内在能力,Heavy 则通过 test-time scaling 策略,充分挖掘模型的性能上限,确保在长任务中也能实现高质量推理。

  结语:阿里进一步补全开源布局

  今年以来,阿里已陆续开源 WebWalker、WebDancer 和 WebSailor 等多款检索和推理智能体,且均取得开源 SOTA 成绩。通义 DeepResearch 的开源,进一步丰富了阿里在 AI 智能体领域的开源布局。

  通义 DeepResearch 的开源为深度研究 Agent 赛道提供了“轻量化高性能”的新选择,也为全球开发者攻克长周期复杂研究任务提供了关键工具支撑。